OSU 基准在容器中使用 UCX 时完成后挂起打印结果

问题描述 投票:0回答:0

我正在尝试使用 UCX 来提供更多具有性能的可移植 MPI 应用程序容器。所以我想比较使用 UCX 替换方法,该方法将系统在运行时将 UCX 构建到容器中(确保使用其他互连库)和使用嵌入式 UCX 的方法(仅安装在互连库中)。后者在使用 osu_allreduce 和其他一些集体 osu 测试(不是全部)进行测试时挂起。

我用 osu_pt2pt_latency 测试了性能,它看起来很好但是当我用 osu_allreduce 测试使用嵌入式 UCX 的变体时,我提交给 slurm 的作业在测试打印结果后立即挂起(slurm 作业的状态是运行但没有进一步输出)。这也发生在 osu_barrier、osu_bcast、osu_scatter、osu_gather、osu_reduce 和 osu_reduce_scatter 上,但 osu_allgather、osu_alltoall 没有发生在集体测试中。来自 UCX 的调试消息(设置 UCX_LOG_LEVEL=debug)没有显示任何可疑的东西,它们只是在端点之后立即停止成功断开连接。有没有人遇到过同样的问题以及对原因和解决方案的任何建议?

containers mpi slurm microbenchmark ucx
© www.soinside.com 2019 - 2024. All rights reserved.