Julia 在 slurm 集群中

问题描述 投票:0回答:1

在这里没有找到这个问题 - 我正在尝试在 slurm 集群上使用 julia,基本上我是在本地计算机上设置这个 slurm 集群:https://github.com/giovtorres/slurm-docker-cluster.git ,“集群”正在工作,我可以提交作业,但我不知道如何让 Julia 进入集群(我应该通过 docker 文件 + yaml - docker compose 安装它),还是可以通过 Env. 以某种方式使用本地安装的 Julia?模块(或 Lmod),感谢任何帮助,提前致谢:)

我正在尝试在 Windows 机器上的 slurm 集群上使用 julia

docker docker-compose julia cluster-computing slurm
1个回答
0
投票

这就是我在泥浆环境中所做的事情。虽然我运行的是 Linux 节点而不是一群 docker。

  1. 在所有节点上安装 Julia 或在共享文件夹(例如 lustre)上安装 Julia。如果您共享
    JULIA_DEPOT_PATH
    ,请确保具有相同
    JULIA_DEPOT_PATH
    的所有节点都具有相同的硬件
  2. 启用无密码 ssh(这是 Julia 集群节点通信的方式)。理想情况下,集群中的每个节点都应该能够无密码
    ssh
    访问所有其他节点。
  3. 使用ClusterManagers将worker添加到主进程中。这是我在 Cray 上运行的代码,也许你需要稍微修改一下:
using ClusterManagers
addprocs_slurm(32,job_name="somename", account="some_account", time="01:00:00", exename="/lustre/tetyda/home/pszufe/julia/usr/bin/julia")
cd("/lustre/tetyda/home/pszufe")

如您所见,这是使用一个luster共享文件夹。在 Docker 化环境中,您可以对文件夹进行不同的配置。但基本上概念应该是一样的。

© www.soinside.com 2019 - 2024. All rights reserved.