将 "胖 "节点分割成多个Slurm节点。

问题描述 投票:1回答:1

根据 SLURM FAQ:

Slurm 可以模拟一个更大的集群吗? 是的,这对于测试目的是很有用的。它也被用来将 "胖 "节点分割成多个Slurm节点。有两种方法可以做到这一点。对于大多数条件来说,最好的方法是在集群中的每个仿真节点运行一个slurmd守护进程,如下所示。

假设我们有一个拥有10个GPU和40个CPU核心的单节点。这是否可以用来将节点病毒式地分割成10个节点,每个节点4个核心是1个GPU,并明确CPUGPU绑定?如果可以,那么配置需要是怎样的?

slurm
1个回答
0
投票

你可以用你需要的规格(4个核心和1个GPU)创建10个虚拟机,所有的虚拟机都连接到同一个网络。然后在每个虚拟机中启动一个slumrd守护进程(其中一个使用slurmctld)。

就像这样。enter image description here

你必须把核心绑定到虚拟机上,这样才会有更准确的行为。但如果是为了测试目的,也许这不是什么大问题。

我认为这种方法对于你想要的东西来说是很直接的。此外,这种方法允许你像往常一样配置Slurm。

配置会是。

NodeName=compute-[0-9] CPUs=4 Gres=gpu:1
PartitionName=main Nodes=ALL Default=YES MaxTime=INFINITE State=UP

希望能帮到你

© www.soinside.com 2019 - 2024. All rights reserved.