我有一种情况,使用终端(在PC主节点上)我可以进入属于另一台PC(在PC节点1上)的磁盘,但SLURM没有。
在终端上:我位于主节点“/mnt/main-node”中,并且通过 cd 进入节点“/mnt/node1”。有了这个一切就正常了。
如果我将上面的代码作为脚本运行,请从“/mnt/main-node”运行它:
srun entry.sh
脚本是:
pwd
cd /mnt/node1
pwd
Slurm 无法进入/查找目录...
/mnt/main-node
entry.sh: line 2: cd: /mnt/node1: No such file or directory
/mnt/main-node
在主节点 PC 上我看到了这个
drwxrwxrwx 7 nobody nogroup 12K Jun 5 12:48 node1/
在node1 PC上我有这个
drwxrwxrwx 7 nobody nogroup 12K Jun 5 12:48 node1/
我正在使用 NFS 连接磁盘。
新的额外信息 17/08/23 使用 salloc - 交互式作业运行“entry.sh”脚本,我可以输入。使用 srun 和 sbatch 我不能。
为什么slurm无法进入node1 PC的磁盘,如何修复?有什么想法吗?
尝试萨洛克
Slurm 将在节点中打开交互式控制台。如果您无法从那里看到磁盘(直接连接到节点,但通过 slurm 队列),则您也无法将作业作为脚本启动。
如果我理解你的问题,你正在导出 nfs 并且节点无法映射它。
我猜master中的/etc/exports并且该服务已启用。 客户端(除了nsf客户端软件)中的/etc/fstab也对吗? 还要检查用户和 ID。也许在主节点和节点中拥有相同的用户和 ID 会很有用。当启用映像部署时,您必须注意这一点,但只需复制用户和组文件即可手动完成。
希望有帮助。