如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

问题描述 投票:0回答:1

我正在使用Spark Streaming,基本上是从EventHub读取近实时数据并将其转储到Blob位置,我需要实施水印处理,以了解EventHub和blob位置的延迟(数据滞后)是什么。众所周知,EventHub仅保存2天的数据,因此我需要确保没有数据丢失,包括EventHub和blob位置。有没有一种方法可以在Spark结构化流媒体中实现这一目标。

apache-spark spark-streaming azure-eventhub
1个回答
0
投票

我认为您正在尝试在这里实现两件事

1。查找时间滞后。

2。查找数据丢失。

我建议至少考虑为此使用Azure流分析。它的查询语言与SQL非常相似。

© www.soinside.com 2019 - 2024. All rights reserved.