如何在运行 slurm 作业时获取实时使用情况统计数据

问题描述 投票:0回答:1

我是 SLURM 新手。我通常喜欢以交互方式运行作业,而不是使用

SBATCH
。这就是我请求资源的方式 -

srun --time=10:00:00 --nodes=1 --cpus-per-task=16 --mem=64G  --partition=gpu --gres=gpu:2 --pty /usr/bin/bash

此外,我还可以通过执行 -

找到分配资源的作业 ID
squeue -u <my_username>

我想获取正在消耗的 GPU 内存、活动 CPU 数量等的实时统计数据。有什么办法可以做到这一点吗?

我已经检查过诸如this之类的问题。然而,他们没有回答我的问题。

如果我的问题需要进一步澄清,请告诉我。

slurm
1个回答
0
投票

您可以使用WandB,这是一种主要用于跟踪机器学习训练的工具。它仅适用于 Python,但也有 C++ 端口

默认情况下,您会获得 23 个系统指标,包括有关 GPU、CPU、所用时间、磁盘使用情况、RAM 使用情况等的信息。并且值每隔几秒更新一次。除此之外,您还可以跟踪任何变量的值。

这里是一个例子。我在 20 多个 GPU 上运行了 360 个实验。您可以单击任何实验来查看变量的值以及系统使用情况,这就是最初的问题。

© www.soinside.com 2019 - 2024. All rights reserved.