我们如何在Spark结构化流中管理偏移量？

问题描述投票：0回答：1

背景：我编写了一个简单的Spark结构化蒸汽应用程序，用于将数据从Kafka迁移到S3。发现为了支持一次保证，spark创建了_spark_metadata文件夹，该文件夹最终变得太大，而当流媒体应用程序长时间运行时，元数据文件夹变得如此之大，以至于我们开始收到OOM错误。我想摆脱Spark结构化流式处理的元数据和检查点文件夹，并自己管理偏移量。

我们如何在Spark Streaming中管理偏移量：我已经使用val offsetRanges = rdd.asInstanceOf [HasOffsetRanges] .offsetRanges来获取Spark结构化流中的偏移量。但是想知道如何使用Spark结构化流技术获取偏移量和其他元数据来管理我们自己的检查点。您是否有实现检查点的示例程序？