Flink CPU 逐渐增长，导致容器被杀死

问题描述投票：0回答：1

在我们的生产集群中，我们看到 flink CPU 在 14 天内攀升的模式，导致容器被终止。

Flink 堆显示如下图所示的增长。最初的理论是 CPU 是由于堆增长的增加而贡献的（更多 GC 活动/对象分配和释放）。

请提出解决和缩小问题范围的有效方法。

如果这是由应用程序代码造成的，那么有哪些有效的工具可以准确缩小问题的范围？

我们没有使用任何检查点功能。

非常感谢！

与第 1 天和第 10 天相比，使用 GCViewer 观察到的 GC 活动更多。

java

apache-flink

flink-streaming

complex-event-processing

flink-cep

1个回答

0
投票

如果可以，请使用 Java 分析器（如 YourKit）来分析 CPU 活动，以便您真正知道是什么导致了负载，而不是猜测它是 GC 活动。

如果无法做到这一点，通常可以在本地运行工作流程并对其进行分析以确定 CPU 负载的可能原因。