slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

Snakemake 在 Slurm 集群上运行时反复尝试下载 Zenodo 存储,在本地工作正常

在 Slurm 集群上使用 Snakemake 8.11.6(通过 Slurm 执行器插件),我尝试基于以下输入进行构建: 输入 正在克隆的 Git 存储库, 两个不同的 tar.gz 文件重试...

回答 1 投票 0

“重新加入”bash SLURM 工作

目前,我可以使用 srun [各种设置] bash 在计算笔记上创建 shell。但是,如果我的 ssh 由于某种原因断开连接并且我想重新访问 shell,我该怎么做?

回答 2 投票 0

munge/slurm 身份验证问题(协议身份验证错误)

我有一个由 1 个网格和 6 个计算节点组成的 slurm 集群。 5 个节点已启动,1 个节点已关闭。它的 slurmd 状态正在谈论 munge auth 错误,然后我重新启动,它们就消失了,但随后...

回答 1 投票 0

NameError:运行snakemake时未定义名称“snakemake”

我有一个示例脚本定义为: #!/usr/bin/env python def 测试(路径): 打印(路径) 测试(snakemake.input[0]) config.yml 如下: 执行者: slurm 职位:100 样本:“config/samples.csv&q...

回答 1 投票 0

使用 python 模块后跟 `-m` 语法,将单行 bash 命令的 `stdout` 和 `stderr` 导出到文本文件

我想将 bash 命令的 stdout 和 stderr 导出到同一个文本文件。 bash 命令是一个单行命令,调用 python3 后跟模块和函数的名称,

回答 1 投票 0

如何获取分配给多 GPU 节点上的 SLURM 作业的 GPU ID?

当我使用选项 --gres=gpu:1 向具有两个 GPU 的节点提交 SLURM 作业时,如何获取为该作业分配的 GPU 的 ID?是否有用于此目的的环境变量?那个...

回答 3 投票 0

不一致的文档 - Slurm 配置文件在 Snakemake > 8.0 中不起作用

Snakemake 的 Slurm 配置文件为 Snakamake 版本提供了魅力 < 8.0. It stoped working since there are few big changes and renaming. Specifically, newer versions do not seem to detect ...

回答 1 投票 0

停止 SLURM 作业的最正确方法

作为 SLURM + Snakemake 管道的一部分,我有一个脚本将数据库服务器作为 SLURM 作业启动,另一个脚本通过 scancel 停止它。 可能不应该使用 HPC 批处理系统

回答 1 投票 0

Slurm 每个节点仅运行 1 个作业

我正在构建一个新的slurm集群,我不太熟悉资源如何分配。我有 4 个节点,每个节点有 32 个核心。当我提交作业时,每个节点只运行 1 个作业,其余的都在

回答 1 投票 0

HPC(Slurm)上的 NetLogo,无需BehaviorSpace

我想稍微改变一下使用 Slurm 在 HPC 上运行 NetLogo 的工作流程。对于上下文,我并行运行大约 360 个模拟,每个模拟可能需要 5 到 7 天(我知道,效率不高)...

回答 1 投票 0

如何使用salloc在Slurm中运行混合MPI和openmp程序

如何使用salloc在Slurm中运行混合MPI和openmp程序,可以 使用以下命令指定 cpu 数量和 openmp 线程数量:salloc ?

回答 1 投票 0

无法启动 slurmd 服务 slurmd:错误:线程计数 (32) 不是核心计数 (24) 的倍数

尝试设置 slurm 节点时,显示错误:线程计数 (32) 不是核心计数 (24) 的倍数 CPU是i9-13900ks,显示lscpu的信息是: 架构:x8...

回答 1 投票 0

无法将 slurm 节点状态从无效更改为空闲

我正在尝试在使用 Ubunutu 22.04(WSL) 的单个节点上设置 slurm。我按照 https://drtailor.medium.com/how-to-setup-

回答 1 投票 0

Slurm - 如何运行 n 个 n 个作业列表?

我有一个必须在 slurm 监控的集群上运行的作业列表: srun job_1 srun job_2 srun job_3 ... 我想 6 x 6 运行这些作业,但我不确定正确的方法。 谢谢...

回答 1 投票 0

Slurmctld:错误:mysql_real_connect失败:1045用户'root'@'localhost'访问被拒绝(使用密码:NO)

我无法解决以下问题: root@MyCluster:/opt/WorkLoadManager/slurm/23.11.5# systemctl 状态 slurmctld × slurmctld.service - Slurm 控制器守护进程 已加载:已加载(/etc/systemd/s...

回答 1 投票 0

在slurm.conf中为节点设置Feature时,SLURM_JOB_CONSTRAINTS就变成了对应的env变量?

在 slurm.conf 我有 NodeName=node1 Gres=gpu:a100:2 CPU=60 ... 功能=hpcki 我从我的序言脚本开始。 那么默认情况下变量 SLURM_JOB_CONSTRAINTS 是“hpcki”? 就是这样...

回答 1 投票 0

如何让squeue按提交时间排序

我想了解如何使用 squeue 按提交时间排序。 我知道我可以使用队列,如下所示,这样它会显示提交时间, squeue -O "stepid:6,用户名:8,帐户:7,名称:53,分区:15,

回答 2 投票 0

Slurm 的后处理队列

我的问题不是直接与 SLURM 相关,而是关于如何围绕它组织工作。 我可以将我提交给 SLURM 的工作类型总结为两类:属于流程一部分的工作...

回答 1 投票 0

如何找到已完成的 SLURM 作业的排队时间?

我正在尝试找到一种方法来查看已完成作业的等待时间,直到它们在以 SLURM 作为工作负载管理器的集群上启动为止。 我知道“sacct”命令可以打印很多信息...

回答 2 投票 0

Slurm:无效的 qos 规范

slurm创建了qos并将其分配给用户,但用户无法使用它。 sacctmgr 添加 QoS 测试 sacctmgr 修改 qos 测试集优先级=10 sacctmgr 更新 qos 测试集 MaxTRES=cpu=640 sacctmgr 修改

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.