我的所有 slurm 作业在启动后两秒内都会失败,并显示退出代码
0:53
。
当我用
scontrol show jobid <JOBID>
查看工作详细信息时,它没有说任何可疑的内容。
当我查看
stdout
和 stderr
写入的文件时,那里什么也没有。
我在列出的信号上找不到任何内容
53
。
事实证明,包含 slurm 应该写入 stdout 和 stderr 的文件的目录并不存在。
在我的
submit.sh
脚本中,相关行是:
#SBATCH --output=log/%j.out # where to store the output ( %j is the JOBID )
#SBATCH --error=log/%j.err # where to store error messages
我提交作业的当前工作目录中的
log
目录不存在。一旦我创建了目录 slurm 作业就不再失败并显示 0:53
。
我的slurm版本是
22.05.2
。根据这个答案,当输出目录从版本23.02
向上不存在时,slurm 不再默默地错误。好像已经在本期报道过。