Apache Beam如何管理运动学检查点?

问题描述 投票:0回答:1

我有一个在Apache Beam(使用Spark Runner)中开发的流传输管道,它从运动学流中读取。

[我正在寻找Apache Beam中用于管理运动学检查点的选项(即定期存储运动学流的当前位置),以便它使系统从故障中恢复并继续处理流停止的地方。

[是否有可供Apache Beam支持的运动学检查点的设置,类似于Spark Streaming(参考链接-https://spark.apache.org/docs/2.2.0/streaming-kinesis-integration.html)?

apache-beam amazon-kinesis apache-beam-io amazon-kcl
1个回答
0
投票

由于KinesisIO基于UnboundedSource.CheckpointMark,所以它使用了Beam UnboundedSource.UnboundedReader提供的标准检查点机制。

一旦读取了KinesisRecord(实际上是通过从Kinesis分片中实际获取记录来从单独馈送的记录队列中提取),则分片检查点将通过使用记录updated而为SequenceNumber,然后将根据UnboundedSource的运行程序实现和检查点处理而保存。

Afaik,为此目的,Beam Spark RunnerusesSpark States机制。

© www.soinside.com 2019 - 2024. All rights reserved.