在我们的生产集群中,我们看到 flink CPU 在 14 天内攀升的模式,导致容器被终止。
Flink 堆显示如下图所示的增长。最初的理论是 CPU 是由于堆增长的增加而贡献的(更多 GC 活动/对象分配和释放)。
请提出解决和缩小问题范围的有效方法。
如果这是由应用程序代码造成的,那么有哪些有效的工具可以准确缩小问题的范围?
我们没有使用任何检查点功能。
非常感谢!
与第 1 天和第 10 天相比,使用 GCViewer 观察到的 GC 活动更多。
如果可以,请使用 Java 分析器(如 YourKit)来分析 CPU 活动,以便您真正知道是什么导致了负载,而不是猜测它是 GC 活动。
如果无法做到这一点,通常可以在本地运行工作流程并对其进行分析以确定 CPU 负载的可能原因。