我们有两个 kube-dns pod 在 GKE 集群上运行。该集群有一个包含 4 个节点的节点池。最近,我观察到两个 kube-dns pod 之一遇到了 crashloopbackoff 错误,而另一个运行完全正常。
尝试解决问题的步骤:
(i) 将 GKE 集群的控制面板升级到最新可用版本:Stable Channel 1.28.3-gke.1203001
(ii) 重新启动了两个 kube-dns pod,但其中一个仍然遇到 crashloopback off 错误
(iii) 横向扩展节点池中的节点数量(从 3 到 4)
(iii) 运行命令 kubectl describe pod -n 来查看 pod 上发生的事件,但没有获得太多信息(请参阅屏幕截图)
(iv) 尝试从 pod 中获取日志,但没有看到任何日志
这是一个需要解决的问题。 ubuntu dnsmasq 尝试自行解析条目并不断崩溃。 它对您的集群没有危害,您可以通过 禁用 systemd-resolved 或停用 dnsmasq
来修复