在过去的1个月里,我们在GKE集群上经历了4次AUTO_REPAIR_NODES
事件(由命令gcloud container operations list
显示)。节点自动修复的结果是节点被重新创建并连接新的外部IP,而新的外部IP(未被第三方服务列入白名单)最终导致在新节点上运行的服务失败。
我注意到我们在Kubernetes集群中启用了“自动节点修复”,并且很想禁用它,但在此之前,我需要了解更多有关情况的信息。
我的问题是:
这里的困惑在于,当您运行由kube-apiserver报告的kubectl get nodes
时会显示“Ready”和“NotReady”状态。但这些是独立的,并且从文档中不清楚它们如何与kubexswpoi所描述的kubelet状态相关你还可以在运行here时看到kubelet状态(在事件中)
回答问题的某些部分:
kubectl describe nodes
)之外,kubelet将开始驱逐或不安排pod。从文档中不清楚这些是如何从kubeapi-server报告的。希望能帮助到你!