我们如何在Spark结构化流中管理偏移量?

问题描述 投票:0回答:1

背景:我编写了一个简单的Spark结构化蒸汽应用程序,用于将数据从Kafka迁移到S3。发现为了支持一次保证,spark创建了_spark_metadata文件夹,该文件夹最终变得太大,而当流媒体应用程序长时间运行时,元数据文件夹变得如此之大,以至于我们开始收到OOM错误。我想摆脱Spark结构化流式处理的元数据和检查点文件夹,并自己管理偏移量。

我们如何在Spark Streaming中管理偏移量:我已经使用val offsetRanges = rdd.asInstanceOf [HasOffsetRanges] .offsetRanges来获取Spark结构化流中的偏移量。但是想知道如何使用Spark结构化流技术获取偏移量和其他元数据来管理我们自己的检查点。您是否有实现检查点的示例程序?

我们如何在Spark结构化流中管理偏移量?看着这个JIRA https://issues-test.apache.org/jira/browse/SPARK-18258。好像没有提供偏移量。我们应该怎么做?

apache-spark spark-streaming
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.