滑动窗口pyflink

问题描述 投票:0回答:1

我是 PyFlink 的新手,我有一个 kafka 流,其中的电话号码、主机名和事件时间均为字符串格式。如何使用 pyflink 的 DataStreams API 计算过去 24 小时内每对电话号码、主机名的访问次数?

我尝试在官方GitHub上查看示例,但我不明白是否需要定义水印策略

apache-flink pyflink data-stream
1个回答
0
投票

如果满足这两个条件,则需要水印:

  1. 您正在做一些临时性的事情——即,在 24 小时窗口内计算一些事情,就像您正在做的那样。
  2. 您依赖事件中的时间戳作为计时信息的来源(而不是依赖事件处理时的系统时钟)。

因此,在您的情况下,如果您使用事件时间而不是处理时间,则需要定义水印策略。

© www.soinside.com 2019 - 2024. All rights reserved.