如何解决GKE的长时间Pod Kill时间？

Question

使用helm upgrade --install时，我经常遇到超时问题。我得到的错误是：

UPGRADE FAILED
Error: timed out waiting for the condition
ROLLING BACK

[如果我查看GCP上的GKE群集日志，就会发现发生这种情况是因为执行此步骤花费了非常长的时间：

Killing container with id docker://{container-name}:Need to kill Pod

我已经看到它的范围从几秒钟到9分钟。如果我进入日志消息的元数据以查找特定的容器并查看其日志，则其中没有任何内容表明该容器与快速终止的容器之间存在差异。

关于如何继续排除故障的任何建议？

Answer 1

您可以参考[[this故障排除指南，了解与Google Kubernetes Engine相关的一般问题。

如此处所述，您可能需要使用'Troubleshooting Application'指南来进一步debugging应用程序容器或其控制器对象。

我假设您已使用以下命令检查了位于相应容器中的容器的logs（1）或described（2）（请查看终止原因）。如果没有，您也可以尝试这些以获取更多有价值的信息。

1. kubectl logs POD_NAME -c CONTAINER_NAME -p
2. kubectl describe pods POD_NAME

注意：我在github.com上看到了一个有关头盔升级失败的similar讨论线程。您也可以在那边看看。