[当我在多节点系统上使用sbatch
启动作业时,正在所涉及的节点上启动某些进程。
我如何找出由于sbatch
运行而在这些已启动的节点上运行的进程(进程ID?)>
我检查了Slurm文档,但没有找到任何显示所涉及进程的命令(例如scontrol
或sstat
)。
想法是找到进程ID,然后使用Linux工具调试被“卡住”的进程(即无输出等,并可能找出该特定进程在做什么。
当我在多节点系统上使用sbatch开始作业时,正在所涉及的节点上启动某些进程。我如何找出正在这些节点上运行的进程(进程ID),这些节点...
您正在寻找的是scontrol listpids
。从scontrol manpage: