flink 检查点间隔设置

问题描述 投票:0回答:1

我有一个使用RocksDB StateBackend的flink任务,检查点配置是最小间隔3分钟,超时5分钟。 当我测试检查点恢复机制时,任务运行良好。当我杀死一个taskmanager来模拟失败并重新启动时,任务从之前的检查点开始延迟,然后产生了背压。然后检查点时间变长,甚至可能失败,任务继续延迟。但是当我将检查点配置设置为最小间隔1分钟,超时时间也为1分钟,并重新执行上述步骤时,任务似乎能够很好地完成恢复并正常运行。我知道检查点间隔越长意味着需要恢复的数据越多,间隔越短检查点开销就越高。就我而言,我的问题是

  1. 是否意味着我的任务容量不够大,无法消耗延迟超过三分钟的数据?不过从历史监控来看,任务正常运行时,资源消耗并不是特别大。
  2. 如何评估合理的检查点间隔?

我修改了检查点间隔,发现每隔一分钟,我的任务就可以从上一个检查点正常恢复,快速追上历史数据,然后正常运行。

apache-flink flink-streaming rocksdb checkpoint
1个回答
0
投票

当恢复的作业正在赶上时,某些东西无法处理额外的负载。根据您的说法,我的猜测是接收器正在向外部系统写入数据,或者可能是 Flink 与这些外部系统之间的网络。

© www.soinside.com 2019 - 2024. All rights reserved.