输入kafka => ETL spark =>输出到kafka。
假设您想计算每个用户的总观看次数,但这些观看次数可能以百万为单位。如果您只是在数据库中使用 KAFKA sink,那么对于 every change 数据库中将有 UPDATE 并且数据库将 very busy.
如何将结果写入 kafka 主题只有窗口的最终结果(例如限制不超过 10 分钟)。
这是一个需要什么的例子
这里是每个视图的每个用户的消息,然后我们按用户 ID 对它们进行分组并制定条件(10 分钟),然后输出结果是这 10 分钟内只有几个最终消息(而不是 1000 条消息) ,然后已经写入数据库。