检查 GPU 利用率

问题描述 投票:0回答:1

我已经在 nvidia A100 服务器上部署了 prometheus,我可以通过 DCGM 导出器仪表板获取除 GPU 利用率之外的所有指标 enter image description here

我部署了 K8s 集群,每个节点有两个节点,每个节点有 8 个 Nvidia GPU。我正在使用 Helm Chart 在集群上部署 DCGM Exporter Pod。我已使用此链接在 K8s 集群上部署 prometheus 和 grafana。 ------> 链接。这是 heml 图表 helm 图表

的链接
kubernetes prometheus grafana nvidia-docker
1个回答
0
投票

我建议查看 Run:ai 的平台作为 GPU 利用率统计数据的来源。除了遵循指标和部分分配资源的选项之外,您还可以持续、即时地了解计算能力的使用情况并立即访问。可能值得检查一下 - 我可以帮忙:)

© www.soinside.com 2019 - 2024. All rights reserved.