如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

Question

我正在使用Spark Streaming，基本上是从EventHub读取近实时数据并将其转储到Blob位置，我需要实施水印处理，以了解EventHub和blob位置的延迟（数据滞后）是什么。众所周知，EventHub仅保存2天的数据，因此我需要确保没有数据丢失，包括EventHub和blob位置。有没有一种方法可以在Spark结构化流媒体中实现这一目标。

Answer 1

我认为您正在尝试在这里实现两件事

1。查找时间滞后。

2。查找数据丢失。

我建议至少考虑为此使用Azure流分析。它的查询语言与SQL非常相似。

如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

问题描述投票：0回答：1

1个回答

最新问题

如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1