无法启动 slurmd 服务 slurmd:错误:线程计数 (32) 不是核心计数 (24) 的倍数

问题描述 投票:0回答:1

尝试设置 slurm 节点时显示错误:线程计数 (32) 不是核心计数 (24) 的倍数 CPU是i9-13900ks,显示lscpu的信息是:

架构:x86_64 CPU 操作模式:32 位、64 位 地址大小:46 位物理地址,48 位虚拟地址 字节顺序:小端 CPU:32 在线 CPU 列表:0-31 供应商 ID:GenuineIntel 型号名称:第 13 代英特尔(R) 酷睿(TM) i9-13900KS CPU系列:6 型号:183 每核线程:2 每个插槽的核心数:24 插座:1 步数:1

我尝试使用 lscpu 显示的参数和所有组合来设置 slurm.config,但无法使其正常启动

计算节点

NodeName=aries NodeAddr=localhost CPUs=32 套接字=1 CoresPerSocket=24 ThreadsPerCore=2 RealMemory=192000 Gres=gpu:1,mps:100 状态=未知 分区名称=系统节点=aries 默认=YES MaxTime=INFINITE 状态=UP

错误:NodeNames=aries CPUs=32 与套接字、套接字CoresPerSocket 或套接字CoresPerSocket*ThreadsPerCore 不匹配。重置 CPU。 slurmd:错误:线程计数 (32) 不是核心计数 (24) 的倍数

linux slurm linux-mint
1个回答
0
投票

我尝试使用 lscpu 显示的参数和所有组合来设置 slurm.config,但无法使其正常启动

您可以做的是在计算节点上运行

slurmd -C
,它将输出您可以直接包含在
slurm.conf
文件中的行,并且将与Slurm所期望的完全对应。

© www.soinside.com 2019 - 2024. All rights reserved.