slurmd: error: Couldn't find the specified plugin name for cgroup/v2 looking all files

问题描述 投票:0回答:2

我在计算节点上启动 slurmd 服务时遇到问题。

× slurmd.service - Slurm 节点守护进程

已加载:已加载(/usr/lib/systemd/system/slurmd.service;已启用;供应商预设:已禁用) 活动:自美国东部时间周三 2022-10-12 04:10:25 以来失败(结果:退出代码); 7 秒前 进程:5839 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS(代码=退出,状态=1/失败) 主 PID:5839(代码=退出,状态=1/失败) 中央处理器:3毫秒 10 月 12 日 04:10:25 compute1.ghpcv3.au.dk systemd[1]:启动 Slurm 节点守护进程。 10 月 12 日 04:10:25 compute1.ghpcv3.au.dk systemd[1]: slurmd.service: 主进程退出,code=exited,status=1/FAILURE 10 月 12 日 04:10:25 compute1.ghpcv3.au.dk systemd[1]:slurmd.service:失败,结果为“退出代码”。

#slurmd -D -vv slurmd:调试:重新打开日志文件 slurmd:调试:CPU:1 板:1 套接字:1 CoresPerSocket:1 ThreadsPerCore:1 slurmd: error: 无法在所有文件中找到 cgroup/v2 的指定插件名称 slurmd:错误:找不到 cgroup/v2 的 cgroup 插件 slurmd:错误:无法为 cgroup/v2 创建 cgroup 上下文 slurmd:错误:无法初始化 cgroup 插件 slurmd:错误:slurmd 初始化失败

我错过了什么?

centos slurm
2个回答
0
投票

您可能必须在您的 slurm 配置目录中手动创建

cgroup.conf
https://stackoverflow.com/a/65226055/5749775

我通过创建一个相当简单的 conf 来解决这个问题:

# /etc/slurm-llnl/cgroup.conf

CgroupAutomount=yes
# CgroupReleaseAgentDir="/etc/slurm/cgroup"

ConstrainCores=yes
ConstrainDevices=yes
# TaskAffinity=yes
ConstrainRAMSpace=yes
# ConstrainSwapSpace=yes
MaxRAMPercent=98
AllowedSwapSpace=0
AllowedRAMSpace=100
MemorySwappiness=0

0
投票

我有同样的问题。 Slurm 支持 cgroup/v1 和 v2,但只有存在 dbus 开发文件时才会编译对 v2 的支持。所以先安装

dbus-devel

dnf install dbus-devel

然后运行干净的 Slurm 构建。

© www.soinside.com 2019 - 2024. All rights reserved.