我的问题是在 30 台服务器上具有相同的配置,该指标在其中一些服务器上不起作用。在 30 台服务器中,有 10 台工作,出于某种原因,20 台不工作。但与此同时,其他指标可以在所有服务器上正常工作。
为了收集指标,我在 docker 中使用 cloudwatch_exporter。配置看起来像这样
---
region: eu-west-1
# Request data that spans this range:
range_seconds: 60
# Request data that is already this old:
delay_seconds: 60
# How often do we query AWS?
#period_seconds: 60
##cpucredit
metrics:
- aws_namespace: AWS/EC2
aws_metric_name: CPUCreditBalance
period_seconds: 3600
aws_dimensions: [InstanceId]
aws_statistics: [Average]
aws_tag_select:
tag_selections:
Name: ["NAME prod env"]
resource_type_selection: "ec2:instance"
resource_id_dimension: InstanceId
- aws_namespace: AWS/RDS
aws_metric_name: BufferCacheHitRatio
period_seconds: 360
aws_dimensions: [DBInstanceIdentifier]
aws_statistics: [Average]
aws_dimension_select_regex:
DBInstanceIdentifier: [databasename]
- aws_namespace: AWS/RDS
aws_metric_name: FreeableMemory
period_seconds: 60
aws_dimensions: [DBInstanceIdentifier]
aws_statistics: [Average]
aws_dimension_select_regex:
DBInstanceIdentifier: [databasename]
- aws_namespace: AWS/RDS
aws_metric_name: CPUUtilization
period_seconds: 60
aws_dimensions: [DBInstanceIdentifier]
aws_statistics: [Average]
aws_dimension_select_regex:
DBInstanceIdentifier: [databasename]
- aws_namespace: AWS/RDS
aws_metric_name: DatabaseConnections
period_seconds: 3600
aws_dimensions: [DBInstanceIdentifier]
aws_statistics: [Average]
aws_dimension_select_regex:
DBInstanceIdentifier: [databasename]
- aws_namespace: AWS/ApplicationELB
aws_metric_name: RequestCount
period_seconds: 86400
delay_seconds: 60
range_seconds: 86400
aws_dimensions: [LoadBalancer, TargetGroup]
aws_dimension_select_regex:
TargetGroup: ["(.*)group1(.*)"]
aws_statistics: [Sum]
此配置已针对标签名称进行更正,在所有服务器上都是相同的。之后,我在服务器上重新启动 docker compose,然后检查 enpoint 在 prometheus 中是否可用,以及是否收集了指标。
##This is my endpoint in prometheus config
- job_name: 'cloudwatch_insnace'
scrape_interval: 300s
static_configs:
- targets: ['instancedns.com:9106']
30个中只有8个。普罗米修斯与这些端点有连接(全部30个)。每台服务器都会显示一些指标。但由于某种原因,没有这样的指标。
我也试图在指标列表中找到这个指标。但是我没找到。但是在正确显示余额的实例上情况是一样的。也许我不明白它应该如何工作。
导出器、prometheus 和 grafana 的日志中没有任何内容表明存在问题
请告诉我可能是什么问题
我尝试更改导出器配置中的指标收集时间。以各种可能的方式更改配置。
我希望这个指标以及其他指标将显示在 grafana 中并正确地从普罗米修斯获取