slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

无法将 slurm 节点状态从无效更改为空闲

我正在尝试在使用 Ubunutu 22.04(WSL) 的单个节点上设置 slurm。我按照 https://drtailor.medium.com/how-to-setup-

回答 1 投票 0

Slurm - 如何运行 n 个 n 个作业列表?

我有一个必须在 slurm 监控的集群上运行的作业列表: srun job_1 srun job_2 srun job_3 ... 我想 6 x 6 运行这些作业,但我不确定正确的方法。 谢谢...

回答 1 投票 0

Slurmctld:错误:mysql_real_connect失败:1045用户'root'@'localhost'访问被拒绝(使用密码:NO)

我无法解决以下问题: root@MyCluster:/opt/WorkLoadManager/slurm/23.11.5# systemctl 状态 slurmctld × slurmctld.service - Slurm 控制器守护进程 已加载:已加载(/etc/systemd/s...

回答 1 投票 0

在slurm.conf中为节点设置Feature时,SLURM_JOB_CONSTRAINTS就变成了对应的env变量?

在 slurm.conf 我有 NodeName=node1 Gres=gpu:a100:2 CPU=60 ... 功能=hpcki 我从我的序言脚本开始。 那么默认情况下变量 SLURM_JOB_CONSTRAINTS 是“hpcki”? 就是这样...

回答 1 投票 0

如何让squeue按提交时间排序

我想了解如何使用 squeue 按提交时间排序。 我知道我可以使用队列,如下所示,这样它会显示提交时间, squeue -O "stepid:6,用户名:8,帐户:7,名称:53,分区:15,

回答 2 投票 0

Slurm 的后处理队列

我的问题不是直接与 SLURM 相关,而是关于如何围绕它组织工作。 我可以将我提交给 SLURM 的工作类型总结为两类:属于流程一部分的工作...

回答 1 投票 0

如何找到已完成的 SLURM 作业的排队时间?

我正在尝试找到一种方法来查看已完成作业的等待时间,直到它们在以 SLURM 作为工作负载管理器的集群上启动为止。 我知道“sacct”命令可以打印很多信息...

回答 2 投票 0

Slurm:无效的 qos 规范

slurm创建了qos并将其分配给用户,但用户无法使用它。 sacctmgr 添加 QoS 测试 sacctmgr 修改 qos 测试集优先级=10 sacctmgr 更新 qos 测试集 MaxTRES=cpu=640 sacctmgr 修改

回答 1 投票 0

配置SLURM,因此需要用户指定--account

我正在尝试弄清楚如何配置 SLURM,以便用户在使用 SLURM 命令(salloc、sbatch、srun)时需要指定 --account。实际上我想禁用默认帐户

回答 3 投票 0

slurm 处理的 bash 脚本中的注释

我在集群上使用 slurm 来运行作业并使用 sbatch 提交如下所示的脚本: #!/usr/bin/env bash #SBATCH -o slurm.sh.out #SBATCH -p defq #SBATCH --邮件类型=全部 #SBATCH——邮件...

回答 2 投票 0

在集群计算节点上使用 VSCode 远程隧道进行自动身份验证

我在集群计算节点上发现了这篇关于 VSCode 远程隧道的有用文章。 有没有一种方法可以自动进行身份验证(类似于 ssh-key),这样就不需要遵循

回答 1 投票 0

请求时间的 Slurm 环境变量

对于 slurm 作业,环境变量 $SLURM_JOB_NUM_NODES 给出请求的节点数。 是否有一个类似的变量可以给出请求的运行时间?我找不到答案,我...

回答 2 投票 0

Slurm 数组问题:当时有一个数组可以工作,但超过这个数组就无法输出正确的文件

我正在使用 Slurm 运行一些包含输出文件的代码。当我使用 #SBATCH --array=1-10%1 时,代码运行顺利,并且输出文件(例如,#1、#2、#3 等)出现在相应的位置

回答 1 投票 0

在运行期间更改发送到 slurm 中的 sbatch 的 bash 脚本是一个坏主意吗?

我想通过 sbatch_run.sh 脚本使用不同的参数多次运行 python 脚本 main.py,如下所示: #!/bin/bash #SBATCH --作业名称=sbatch_run #SBATCH --array=1-1000 #SBATCH --exc...

回答 1 投票 0

如何为 Slurm 作业指定每个核心的最大内存

我想为 slurm 中的批处理作业指定每个核心的最大内存量 我可以看到两个批处理内存选项: --mem=MB 作业所需的每个节点的最大实际内存量。 --mem-...

回答 1 投票 0

Slurm MPI 错误:ORTE 守护进程失败

我在集群上使用 Slurm 和 openMPI 时遇到了一些问题。每当我运行任何使用 mpirun 的作业时,都会收到以下错误: -------------------------------------------------- ----------...

回答 1 投票 0

如何创建函数或别名来缩短 sbatch 依赖?

我正在尝试编写一个函数或别名来包含在我的 .bashrc 中以缩短 sbatch --dependency=afterany:job_id jobfile 我努力了 函数 sbd() { sbatch --dependency=afterany:$1 $2 } 和 别名='

回答 1 投票 0

SLURM支持在一个节点上同时运行多个作业吗?

我们的计算机集群运行 slurm 版本 15.08.13,mpich 版本为 3.2.1。我的问题是,Slurm可以支持在一个节点上同时运行多个作业吗?我们的计算机集群有16核...

回答 2 投票 0

如何在 .out 文件中输出 SBATCH 选项或如何在 bash 中回显注释行

我对使用 SLURM 工作负载管理器进行 HPC 计算相当陌生,因此尚未找到可靠的工作例程。截至目前,我有一个带有一堆 #SBATCH 标志的作业脚本,我修改了这些标志...

回答 1 投票 0

在集群上运行 Julia 时出现问题

我正在使用 julia 在 SLURM 集群上运行一些模拟。我是朱莉娅的新手,似乎无法弄清楚缺少什么。我有三个主要代码文件“job.sh”、“main.jl”...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.