我发现 Liveness Probe 存在问题并且超时。然后 POD 将重新启动。在容器中,我看到代码为 137 的错误(内存问题)
我们的后端数据库是Spanner。这是 Springboot 应用程序。
gcloud spanner 数据库会话列表 --instance my-instance --database my-db
给出 11450 个活动会话的计数。 任何关于这方面的指示都会有帮助
错误代码 137 表示容器收到 SIGKILL 失败。当应用程序的负载高于正常负载时,通常会出现此错误。要进行修复,您应该增加容器或 Pod 的限制。如果负载没有出现峰值,您应该调查应用程序中是否存在任何内存泄漏。
您应该检查日志以确定违反了哪个阈值导致了 SIGKILL。可能的原因有内存不足、磁盘使用率、CPU 使用率。了解导致退出 137 的原因后,您可以增加缺少的资源。
闲置超过1小时的会话将被服务器删除(来源)。
您的 pod 已经重新启动,并且不知道这些过时的会话。所以对客户端没有影响。