我正在尝试在我的 Hadoop 集群上创建一个监控和可观察性基础设施。
我的集群是通过cloudera manager管理的,因此我有一些问题,也许你们中的一些人可以帮助我:
主要问题是:基础设施架构的正确方法是什么? 为每个服务 jvm 使用 jmx 导出器? 像 Prometheus 一样将所有指标保存在 tsdb 中并在 Grafana 中查询?
如果需要更多信息,我很乐意提供。
据我所知,是的,Cloudera Manager 有自己的指标数据库(不确定它是开源工具,但监控信息位于数据库中)。我认为有 Python 代理来收集指标......
但是 JMX Exporters 会显示比您在那里看到的更多的详细信息,但是您随后需要为该数据创建自己的仪表板。