我正在使用Spark Streaming,基本上是从EventHub读取近实时数据并将其转储到Blob位置,我需要实施水印处理,以了解EventHub和blob位置的延迟(数据滞后)是什么。众所周知,EventHub仅保存2天的数据,因此我需要确保没有数据丢失,包括EventHub和blob位置。有没有一种方法可以在Spark结构化流媒体中实现这一目标。
我认为您正在尝试在这里实现两件事
1。查找时间滞后。
2。查找数据丢失。
我建议至少考虑为此使用Azure流分析。它的查询语言与SQL非常相似。