slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

如何创建函数或别名来缩短 sbatch 依赖?

我正在尝试编写一个函数或别名来包含在我的 .bashrc 中以缩短 sbatch --dependency=afterany:job_id jobfile 我努力了 函数 sbd() { sbatch --dependency=afterany:$1 $2 } 和 别名='

回答 1 投票 0

SLURM支持在一个节点上同时运行多个作业吗?

我们的计算机集群运行 slurm 版本 15.08.13,mpich 版本为 3.2.1。我的问题是,Slurm可以支持在一个节点上同时运行多个作业吗?我们的计算机集群有16核...

回答 2 投票 0

如何在 .out 文件中输出 SBATCH 选项或如何在 bash 中回显注释行

我对使用 SLURM 工作负载管理器进行 HPC 计算相当陌生,因此尚未找到可靠的工作例程。截至目前,我有一个带有一堆 #SBATCH 标志的作业脚本,我修改了这些标志...

回答 1 投票 0

在集群上运行 Julia 时出现问题

我正在使用 julia 在 SLURM 集群上运行一些模拟。我是朱莉娅的新手,似乎无法弄清楚缺少什么。我有三个主要代码文件“job.sh”、“main.jl”...

回答 1 投票 0

如何获取用于 SLURM 作业的脚本的原始位置?

我正在使用脚本启动 SLURM 作业,并且脚本必须根据其位置来工作,该位置是通过 SCRIPT_LOCATION=$(realpath $0) 在脚本本身内部获取的。但是 SLURM 将脚本复制到 slurmd

回答 4 投票 0

SLURM 脚本失败,尽管其中的命令有效

我目前正在尝试运行我的第一个 SLURM 脚本,但它在 sbatch 和 srun 中立即失败。 我一个接一个地测试了其中的 python 命令,它们都可以独立工作,le...

回答 2 投票 0

Julia 在 slurm 集群中

在这里没有找到这个问题 - 我正在尝试在 slurm 集群上使用 julia,基本上我是在本地计算机上设置这个 slurm 集群:https://github.com/giovtorres/slurm-docker-cluster.git ...

回答 1 投票 0

如何确定bash脚本中调用进程的等级?

我正在开发一个bash脚本来压缩大量文件,使用MPI为超级计算机上的每个处理器分配文件集。 这是我的 bash 脚本: #!/bin/bash # 源目录

回答 1 投票 0

如何向 SLURM 调度程序请求同一套接字/NUMA 节点上的 CPU?

我使用的集群中每个节点都有 2 个插槽,每个插槽上有一个 64 核的 CPU。我的工作扩展建议我的工作最多应使用 64 个核心。我反复遇到这样的问题,有时...

回答 1 投票 0

Slurm:重命名文件夹中的特定行

我正在尝试使用 for 循环来重复更改文件的行。这是我的代码。 #!/bin/bash # 用于运行多个任务的 SLURM 批处理脚本示例 # SLURM 配置 #SBATCH --节点=1 #SBAT...

回答 1 投票 0

slurm 在运行几行后没有执行我的 Python 代码,但也没有停止,而它在我本地的 Linux 上运行良好

我的代码: 从数据集导入load_dataset 最大长度 = 512 数据集 = load_dataset("胶水","mrpc") 从 Transformer 导入 AutoTokenizer 从 Transformers 导入 RobertaTokenizerFa...

回答 1 投票 0

如何为目录中的不同 $arg 并行运行相同的 python 脚本

我必须为大约 10'000 个对象运行一系列 python 脚本。每个对象都由我的目录中的一行参数来表征。 在我的计算机上,为了测试脚本,我只是使用了 bash...

回答 1 投票 0

如何在 HPC 中一起运行多个基于 python 的 slurm 作业

我需要提交 100 个 slurm 作业,它们都执行相同的计算,但略有变化(唯一的区别是年份;所有文件都有不同的年份)。有没有办法一起提交

回答 1 投票 0

SLURM中如何注释掉延迟调度命令?

我在SLURM中使用了延迟调度,效果很好。现在我想将其注释掉而不删除它;我怎样才能做到这一点? #SBATCH --mem=50000 # 实际内存 (RAM) 要求...

回答 1 投票 0

如何在运行 slurm 作业时获取实时使用情况统计数据

我是 SLURM 新手。我通常喜欢以交互方式运行作业,而不是使用 SBATCH。这就是我请求资源的方式 - srun --time=10:00:00 --nodes=1 --cpus-per-task=16 --mem=64G --partition=g...

回答 1 投票 0

如何限制SLURM中并行执行的程序数量

我正在尝试使用 slurm 在我的集群(单节点)上并行运行多个命令。 这是我的情况: 我有 N 个命令要运行 我的集群中有 M 个物理核心 (M=4) 因为每次...

回答 1 投票 0

一个节点上运行多个单核

我有一个如下所示的 csh 脚本 foreach n(`seq 1 1000000`) ./myprog${n}.x 结尾 我想并行化它并在我的 slurm 集群上运行它,因为程序的每个实例都需要......

回答 1 投票 0

SLRUM:当节点位于 2 个分区时,如何限制一个分区中特定节点的 CPU 数量?

实际上,我发现了一个与我非常相似的问题。唯一的区别是我的小集群中节点的CPU数量不同。 (类似的问题在这里) 例如,点头...

回答 2 投票 0

程序在 SLURM 集群上学习时收到 TIME LIMIT 时保存模型权重

我使用用 pytorch_lightning (pytorch) 编写的深度学习模型,并在 slurm 集群上训练它们。我这样提交作业: sbatch --gpus=1 -t 100 python train.py 当请求的 GPU 时间结束时,...

回答 2 投票 0

奇点中的孤立环境?

我正在 HPC 集群上运行奇点。我想要一个隔离的环境,这样我就可以在不影响我的主目录的情况下进行开发。 1. 簇上的奇点 我尝试了最简单的事情...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.