我是 PyFlink 的新手,我有一个 kafka 流,其中的电话号码、主机名和事件时间均为字符串格式。如何使用 pyflink 的 DataStreams API 计算过去 24 小时内每对电话号码、主机名的访问次数?
我尝试在官方GitHub上查看示例,但我不明白是否需要定义水印策略
如果满足这两个条件,则需要水印:
因此,在您的情况下,如果您使用事件时间而不是处理时间,则需要定义水印策略。