尝试设置 slurm 节点时显示错误:线程计数 (32) 不是核心计数 (24) 的倍数 CPU是i9-13900ks,显示lscpu的信息是:
架构:x86_64 CPU 操作模式:32 位、64 位 地址大小:46 位物理地址,48 位虚拟地址 字节顺序:小端 CPU:32 在线 CPU 列表:0-31 供应商 ID:GenuineIntel 型号名称:第 13 代英特尔(R) 酷睿(TM) i9-13900KS CPU系列:6 型号:183 每核线程:2 每个插槽的核心数:24 插座:1 步数:1
我尝试使用 lscpu 显示的参数和所有组合来设置 slurm.config,但无法使其正常启动
NodeName=aries NodeAddr=localhost CPUs=32 套接字=1 CoresPerSocket=24 ThreadsPerCore=2 RealMemory=192000 Gres=gpu:1,mps:100 状态=未知 分区名称=系统节点=aries 默认=YES MaxTime=INFINITE 状态=UP
错误:NodeNames=aries CPUs=32 与套接字、套接字CoresPerSocket 或套接字CoresPerSocket*ThreadsPerCore 不匹配。重置 CPU。 slurmd:错误:线程计数 (32) 不是核心计数 (24) 的倍数
我尝试使用 lscpu 显示的参数和所有组合来设置 slurm.config,但无法使其正常启动
您可以做的是在计算节点上运行
slurmd -C
,它将输出您可以直接包含在slurm.conf
文件中的行,并且将与Slurm所期望的完全对应。