我试图从prometheus刮掉traefik指标。
Traefik(最新)作为群集群集上的服务托管,并且prometheus指标已激活。匹配的端点是10.200.1.1:8088/metrics
当我从导航器到达我的端点时,我看到了预期的指标:
...
# HELP traefik_config_last_reload_failure Last config reload failure
# TYPE traefik_config_last_reload_failure gauge
traefik_config_last_reload_failure 0
# HELP traefik_config_last_reload_success Last config reload success
# TYPE traefik_config_last_reload_success gauge
traefik_config_last_reload_success 1.53633684e+09
# HELP traefik_config_reloads_failure_total Config failure reloads
# TYPE traefik_config_reloads_failure_total counter
traefik_config_reloads_failure_total 0
# HELP traefik_config_reloads_total Config reloads
# TYPE traefik_config_reloads_total counter
traefik_config_reloads_total 76
...
所以,对我的pov来说,编辑以下prometheus.yml(以及POST到/ - / reload)应该添加这些指标。
global:
scrape_interval: 15s
rule_files:
- "targets.rules"
- "host.rules"
- "containers.rules"
scrape_configs:
...
- job_name: 'traefik'
metrics_path: '/metrics'
static_configs:
- targets: ['10.200.1.2:8088']
但不幸的是,没有一个出现在prometheus api的下拉列表中。
由于我是traefik和prometheus的新手,我很确定我理解错了。我试图遵循一些指南(例如this one),但无法让它工作(可能与之前的版本一起工作)。
所以....有没有人知道我做错了什么和/或什么是正确的方法?
过了一会儿,很多尝试和一些相关的问题后来:我最后认为这不是关于我的配置...所以,因为我也观察到一些随机奇怪的行为(例如我的远程/提供商呼叫上的一些503错误),我开始认为问题与访问我的机器有关。
所以我尝试降级管理器并改进群的另一个节点。 ......它奏效了!我的traefik指标现在出现在普罗米修斯!
我仍然要了解我的前经理有什么问题,但至少,我正在向前迈进!
感谢@AlinSînpălean和@AndreasJägle的帮助!