Slurm 作业正在运行,但没有输出或错误

问题描述 投票:0回答:1

我遇到了向集群中运行 Rocky Linux 8.8 的节点提交 Slurm 作业的问题。该作业的状态为“R”,但它已经运行了一天多,没有产生任何输出或错误。

以前,此作业将在几分钟内完成,尝试取消正在运行的作业会导致其冻结在“CG”状态。

我尝试使用以下命令重新启动节点上的 Slurm 服务:

systemctl 重新启动 slurmd systemctl 重新启动 slurmd.service systemctl 重新启动 sshd

我还尝试重新启动节点。

但是问题依然存在,并且提交的不同作业都会出现该问题。

什么可能导致此问题以及如何解决?

谢谢

linux jobs slurm cg
1个回答
0
投票

这往往是由于某些I/O操作被阻塞造成的;该作业无法写入文件系统,并且 Slurm 无法正确取消该作业,因为进程卡在 D 状态。从 Slurm 控制器视图中,作业保持在

CG
状态(“完成”)。

通常,失败的网络挂载(例如 NFS)是罪魁祸首,但如果节点重新启动后问题仍然存在,您可能应该查找出现故障的本地磁盘(本地暂存、操作系统磁盘等)

© www.soinside.com 2019 - 2024. All rights reserved.