为什么我在使用 sbatch SLURM 时一直收到 NonZeroExitCode?

问题描述 投票:0回答:2

我有一个简单的 test.ksh,我正在使用以下命令运行:

sbatch test.ksh

我不断收到“JobState=FAILED Reason=NonZeroExitCode”(使用“scontrol show job”)

我已经确定了以下几点:

  1. slurmd 和 slurmctld 已启动并正确运行
  2. “test.ksh”的用户权限为 777。
  3. 命令“srun test.ksh”(单独使用,不使用 sbatch)成功没有问题
  4. 我试过在“test.ksh”的最后一行输入“return 0”,但运气不好
  5. 我试过在“test.ksh”的最后一行输入“exit 0”,但运气不好
  6. 我尝试在“test.ksh”的最后一行输入“主机名”,但没有成功
  7. 我试过在“test.ksh”的最后一行输入“srun hostname”但运气不好
linux slurm sbatch
2个回答
6
投票

我发现我没有设置--error和--output,这意味着默认是我发出命令的当前目录。

问题是我没有足够的权限写入当前目录

解决方案是将目录的 --error 和 --output 设置到我有权限的地方。


0
投票

就我而言,这是因为当我实际使用第二个用户时,我的文件夹所有者是 root。我错误地在特定用户的主文件夹中将文件夹创建为根目录。使用

chown user:usergroup foldername
它解决了问题

© www.soinside.com 2019 - 2024. All rights reserved.