slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

Slurm 配置问题:运行进程会阻塞整个节点的核心而不是分配的核心

我在分布式计算环境中配置 Slurm 时遇到问题。当我启动一个只应使用 4 个核心的进程时,它最终会阻塞 n 上的所有 128 个可用核心...

回答 1 投票 0

Slurm GANG 安排不轮流工作?

我正在尝试在我的单节点服务器上使用 Slurm 设置 GANG 调度,以便实验室的人员可以在不互相阻塞的情况下运行实验(所以如果说有人必须运行一些需要......

回答 1 投票 0

使用 srun 或 salloc 启动交互式会话

我有相当多的LSF实践经验,这实际上干扰了我对SLURM的学习。 我对 srun 和 salloc 特别困惑,因为我无法将它们映射到任何一个......

回答 1 投票 0

登录Dask

我正在使用 SLURM 集群,并且希望能够在我的任务中添加自定义日志,这些日志在检查特定工作人员时应显示在仪表板上的日志中。 或者我会...

回答 1 投票 0

将 slurm 资源使用情况记录到文件中

有没有办法在作业完成时将资源使用情况(如 seff 显示)记录到文件中?我经常有一些工作已经完成,他们的资源信息已经从 SLURM 中循环出来,l...

回答 1 投票 0

是否可以通过 sbatch 将作业名称分配给 SLURM 数组中的单独工作人员?

默认情况下,将 SLURM 作业作为数组提交时,数组中的所有作业共享相同的作业名称。在文档中(此处:https://slurm.schedmd.com/job_array.html),它显示...

回答 1 投票 0

指定 Slurm 作业允许的节点列表

提交单节点作业时是否可以指定允许的节点列表? IE。该作业应限制为在列出的节点之一上运行(基本上是 --exclude 的补充)。 我...

回答 1 投票 0

提交一个调用 srun 的 python 脚本来 slurm

我想用slurm提交一个python脚本,通过bash“sbatch myscript.sh”。在我的 script.sh 中,python 被称为“python running.py” 反过来将使用“check_cal...

回答 1 投票 0

带有 SLURM 的 Conda 环境

我正在尝试在 SLURM 集群上的 conda 环境中执行 python 脚本。到目前为止,我在网上找到的任何建议都无法解决我的问题。我设置了 conda 环境并安装了所有必需的...

回答 1 投票 0

SLURM:Sinfo GresUsed

运行“sinfo ... --Format=GresUsed”等命令时如何解释 GresUsed 的输出格式 我的节点的输出看起来像这样: GPU:h100:0(IDX:不适用) 做什么...

回答 1 投票 0

展开列以查看 Slurm 中的完整作业名称

是否可以扩展SLURM中命令sacct的JobName列中使用的字符数? 例如,我目前有: JobID JobName 已用 NCPUS NTasks ...

回答 2 投票 0

在 slurm 中运行并行作业

我想知道是否可以询问有关并行运行 slurm 作业的问题。(请注意,我是 slurm 和 linux 的新手,两天前才开始使用它......) 根据...的说明

回答 2 投票 0

如果 slurm 脚本通过 Python 中的 os.system 提交,则显示“sh:记录器:找不到命令”

我正在将作业提交到使用 SLURM 管理的集群。我有一个 python 脚本,可以自动提交作业,因为我正在进行超参数调整。 在我的 python 脚本中,我运行 os.system('s...

回答 1 投票 0

这个任务适合rslurm吗?

我有几个实验,我想在每个节点上运行一个实验,每个实验都是具有多个核心的一系列执行。现在我的代码如下所示: 运行种子 <- c(1,2,3...

回答 1 投票 0

/opt/lmod/lmod/init/bash:第 178 行:`color-chrs.pl':不是有效的标识符

我正在尝试向计算节点提交 shell 脚本,但仅在提交作业时才不断遇到此错误。作业启动但返回错误“...不是有效的标识符”...

回答 1 投票 0

Slurm 错误“分配请求的核心/任务必须以季度增量”

嗨,我正在 PSC 中使用bridges2超级计算机来运行作业,当我尝试使用下面的脚本提交作业时,出现错误 sbatch:错误:分配请求的核心/任务...

回答 1 投票 0

slurm - 动态分配

感谢您阅读这个问题 我有兴趣根据当前的使用情况实现 GPU 的动态和公平分配。例如,在具有 12 个 GPU 和 3 个用户的服务器中,我会

回答 1 投票 0

Slurm 作业正在运行,但没有输出或错误

我遇到了向集群中运行 Rocky Linux 8.8 的节点提交 Slurm 作业的问题。该作业的状态是“R”,但它已经运行了一天多,没有产生任何结果...

回答 1 投票 0

所有 slurm 作业都会默默失败,退出代码为 0:53

我的所有 slurm 作业在启动后两秒内都会失败,退出代码为 0:53。 当我使用 scontrol show jobid 查看工作详细信息时,它没有说任何可疑的内容。 当我看着 f...

回答 1 投票 0

所有 slurm 作业都会失败,退出代码为 0:53

我的所有 slurm 作业在启动后两秒内都会失败,退出代码为 0:53。 当我使用 scontrol show jobid 查看工作详细信息时,它没有说任何可疑的内容。 当我看着 f...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.