prometheus 和 grafana 中的 cloudwatch_exporter 指标问题

问题描述 投票:0回答:0

我的问题是在 30 台服务器上具有相同的配置,该指标在其中一些服务器上不起作用。在 30 台服务器中,有 10 台工作,出于某种原因,20 台不工作。但与此同时,其他指标可以在所有服务器上正常工作。
为了收集指标,我在 docker 中使用 cloudwatch_exporter。配置看起来像这样

---
region: eu-west-1

# Request data that spans this range:
range_seconds: 60
# Request data that is already this old:
delay_seconds: 60
# How often do we query AWS?
#period_seconds: 60


##cpucredit
metrics:

  - aws_namespace: AWS/EC2
    aws_metric_name: CPUCreditBalance
    period_seconds: 3600
    aws_dimensions: [InstanceId]
    aws_statistics: [Average]
    aws_tag_select:
      tag_selections:
        Name: ["NAME prod env"]
      resource_type_selection: "ec2:instance"
      resource_id_dimension: InstanceId

  - aws_namespace: AWS/RDS
    aws_metric_name: BufferCacheHitRatio
    period_seconds: 360
    aws_dimensions: [DBInstanceIdentifier]
    aws_statistics: [Average]
    aws_dimension_select_regex:
      DBInstanceIdentifier: [databasename]

  - aws_namespace: AWS/RDS
    aws_metric_name: FreeableMemory
    period_seconds: 60
    aws_dimensions: [DBInstanceIdentifier]
    aws_statistics: [Average]
    aws_dimension_select_regex:
      DBInstanceIdentifier: [databasename]

  - aws_namespace: AWS/RDS
    aws_metric_name: CPUUtilization
    period_seconds: 60
    aws_dimensions: [DBInstanceIdentifier]
    aws_statistics: [Average]
    aws_dimension_select_regex:
      DBInstanceIdentifier: [databasename]

  - aws_namespace: AWS/RDS
    aws_metric_name: DatabaseConnections
    period_seconds: 3600
    aws_dimensions: [DBInstanceIdentifier]
    aws_statistics: [Average]
    aws_dimension_select_regex:
      DBInstanceIdentifier: [databasename]

  - aws_namespace: AWS/ApplicationELB
    aws_metric_name: RequestCount
    period_seconds: 86400
    delay_seconds: 60
    range_seconds: 86400
    aws_dimensions: [LoadBalancer, TargetGroup]
    aws_dimension_select_regex:
      TargetGroup: ["(.*)group1(.*)"]
    aws_statistics: [Sum]

此配置已针对标签名称进行更正,在所有服务器上都是相同的。之后,我在服务器上重新启动 docker compose,然后检查 enpoint 在 prometheus 中是否可用,以及是否收集了指标。

##This is my endpoint in prometheus config
  - job_name: 'cloudwatch_insnace'
    scrape_interval: 300s
    static_configs:
         - targets: ['instancedns.com:9106']

之后去grafana 看这个服务器不在实例列表里
enter image description here

30个中只有8个。普罗米修斯与这些端点有连接(全部30个)。每台服务器都会显示一些指标。但由于某种原因,没有这样的指标。

我也试图在指标列表中找到这个指标。但是我没找到。但是在正确显示余额的实例上情况是一样的。也许我不明白它应该如何工作。

enter image description here

导出器、prometheus 和 grafana 的日志中没有任何内容表明存在问题

请告诉我可能是什么问题

我尝试更改导出器配置中的指标收集时间。以各种可能的方式更改配置。

我希望这个指标以及其他指标将显示在 grafana 中并正确地从普罗米修斯获取

prometheus grafana monitoring amazon-cloudwatch exporter
© www.soinside.com 2019 - 2024. All rights reserved.