在 ETL 之后写入数据库或 myApp(接收器)之前,Spark 只有窗口结果

问题描述 投票:0回答:0

输入kafka => ETL spark =>输出到kafka。

假设您想计算每个用户的总观看次数,但这些观看次数可能以百万为单位。如果您只是在数据库中使用 KAFKA sink,那么对于 every change 数据库中将有 UPDATE 并且数据库将 very busy.

如何将结果写入 kafka 主题只有窗口的最终结果(例如限制不超过 10 分钟)。

这是一个需要什么的例子

这里是每个视图的每个用户的消息,然后我们按用户 ID 对它们进行分组并制定条件(10 分钟),然后输出结果是这 10 分钟内只有几个最终消息(而不是 1000 条消息) ,然后已经写入数据库。

apache-spark pyspark apache-kafka spark-streaming spark-structured-streaming
© www.soinside.com 2019 - 2024. All rights reserved.