我在 Google Kubernetes Engine 上创建了一个包含 dataplane 2 的集群。 查看各个
kube-system
pod 的日志,我发现 anetd 部署的指标报告容器中存在大量噪音。
错误看起来像:
containerId: 3298fxxxxxxxxxxxxxxxxxxx
containerName: cilium-agent-metrics-collector
fluentTimestamp: 1715830550029446400
log: 2024-05-16T03:35:50.02941677Z stderr F {"level":"error","ts":1715830550.0293708,"caller":"prometheus/parse.go:140","msg":"Unrecognized line","scrape_target":"http://localhost:9990/metrics","line_number":1107,"text":"cilium_k8s_client_api_latency_time_seconds_bucket{method=\"POST\",path=\"/apis/cilium.io/v2/namespaces/{namespace}/ciliumendpoints\",le=\"10\"} 16","stacktrace":"google3/cloud/kubernetes/metrics/components/collector/prometheus/prometheus.(*parser).ParseText\n\tcloud/kubernetes/metrics/components/collector/prometheus/parse.go:140\ngoogle3/cloud/kubernetes/metrics/components/collector/collector.runScrapeLoop\n\tcloud/kubernetes/metrics/components/collector/collector.go:84\ngoogle3/cloud/kubernetes/metrics/components/collector/collector.Run\n\tcloud/kubernetes/metrics/components/collector/collector.go:62\nmain.main\n\tcloud/kubernetes/metrics/components/collector/main.go:40\nruntime.main\n\tthird_party/go/gc/src/runtime/proc.go:267"}
namespace: kube-system
nodeName: gke-dev-infra-default-pool-e9e1dc67-n4vx
podName: anetd-svwhb
如果您无法在长行上一直滚动,重要的部分是:
"prometheus/parse.go:140","msg":"Unrecognized line"
"cilium_k8s_client_api_latency_time_seconds_bucket{method=\"POST\",path=\"/apis/cilium.io/v2/namespaces/{namespace}/ciliumendpoints\",le=\"10\"} 16"
然后是堆栈跟踪。
鉴于这些容器和 Pod 是由 Google 提供的,我自己对此无能为力,但如果每天不从空闲集群中获取数百万条错误日志消息,那就太好了……
看起来某些 GKE 版本存在错误,其中 cilium-agent-metrics-collector 会产生大量不需要的错误日志。
为了避免此类问题,请尝试升级到最新版本,例如 >=1.28.7-gke.1201000(对于 1.28)、>=1.29.2-gke.1425000(对于 1.29、28.16.0+ 和 29.4.1+)。有关更多详细信息,请参阅官方GCP 发行说明。
请参阅已在公共问题跟踪器中报告的类似问题,并浏览Google 社区问题以获取更多信息。
如果问题仍然存在,请通过描述您的问题在公共问题跟踪器中提出新错误。