OpenMPI 节点无法识别集群中另一个节点的 IP

问题描述 投票:0回答:0

总的来说,我对 OpenMPI/并行计算非常陌生。我一直在遵循本指南 here 了解如何操作,我已经毫无问题地完成了本指南的 99%,正是这个最终测试给我带来了问题,我还没有完全弄清楚是什么出错了。当我执行“compute-pi”sbatch 作业时,我遇到了这个错误。

Slurm Output File when submitting

但是,当我设置 n=4(即让它在一个节点上运行)时,compute-pi 运行得很好。此外,我还可以在所有节点上毫无问题地执行 srun 命令,因此主节点可以毫无问题地跨集群调度作业。我认为一旦节点必须开始相互通信,事情就会开始崩溃。

我希望 slurm.out 文件具有 pi 的计算近似值,但由于这个问题,它从未完成任务。此外,我尝试将“--mca oob_tcp_if_include eth0 --mca btl_tcp_if_include eth0”添加到我在其他论坛上看到的命令中,但这没有帮助。我还打开了所有 Iptables 以允许来自所有 IP 的流量,但这同样不起作用。

非常感谢任何建议。如果您需要更多信息,请告诉我,我很乐意提供帮助。

python parallel-processing openmpi
© www.soinside.com 2019 - 2024. All rights reserved.