我目前对窗口和状态感到困惑。假设我有一个程序,每分钟统计用户访问数据,需要在每个窗口中做sum统计。假设此时我为了程序的容错配置了checkpoint。检查点配置为每 30 秒触发一次。然后当时间为01:00时,程序挂起。理论上只能恢复到00:30的状态数据,但00:30没有触发窗口。经过计算,我们得到00:30的kafka偏移数据和00:00的窗口数据。我的理解有问题吗?
我尝试将检查点时间调整为1分钟,但这并没有解决我的问题。因为我不能保证检查点时间就是窗口结束的时间。
无需担心检查点与窗口的同步;两者是相互独立的。
每当采取检查点时,它都会包括