slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

Slurm 批处理脚本保存到变量或追加

我希望能够将我的 slurm 批处理脚本附加到我的错误文件中。我使用 sbatch -J "my_run_name" runscript.slurm 在 HPC 上提交这些内容。 runscript.slurm 的内容总结...

回答 1 投票 0

确保始终有 N 个作业在使用 SLURM 的 M 批次中运行/分配

我需要使用SLURM进行集群计算,我希望达到以下结果:在包含M个任务的批处理文件中,任何时候只有N个任务正在执行/保留。 我有一个...

回答 1 投票 0

我可以创建一个反映数组任务ID的作业名称吗?

我在大学使用高性能研究云,它利用 Slurm 工作负载管理器(我对这种类型的计算非常不熟悉)。我已经想出足够的办法来获得一批......

回答 1 投票 0

查看用户请求的 slurm 作业优先级

我在 slurm 中提交了以下作业 testuser1@dev-0:~$ sbatch --priority=10 --cpus-per-task=10 --wrap="/bin/sleep 300" 提交的批处理作业 18 当我确实在上面的工作中展示工作时,我不...

回答 1 投票 0

Slurm:无效的工作凭证

我尝试搭建一个Slurm集群,由一个计算节点和一个控制节点组成。 目前,启动某些任务不起作用。即使队列不为空,节点有时也会关闭。斯伦

回答 1 投票 0

Snakemake 任务在 SLURM 上失败且没有错误 - 如何调试?

我尝试使用snakemake --slurm -j 200通过SLURM运行多个任务。一些SLURM作业失败,但我找不到任何错误消息。 Snakemake 打印以下内容: ... [2023 年 9 月 28 日星期四 10:25:04]...

回答 1 投票 0

如何在slurm中设置MASTER_PORT和MASTER_ADDR

在torch官方文档中谈到DDP时,说要设置如下: def 设置(等级,世界大小): os.environ['MASTER_ADDR'] = 'localhost' os.environ['MASTER_PORT'] = ...

回答 1 投票 0

Slurm 中的 GPU 分配:--gres 与 --gpus-per-task,以及 mpirun 与 srun

Slurm 中有两种分配 GPU 的方法:要么是通用的 --gres=gpu:N 参数,要么是特定的参数,如 --gpus-per-task=N。还有两种方法可以在批处理 SC 中启动 MPI 任务...

回答 2 投票 0

ArangoDB 在 slurm sbatch 提交后陷入沉默

我正在尝试在 Cray 超级计算机上以集群模式运行 ArangoDB。 它在登录节点上运行。 我按照以下说明进行操作: https://docs.arangodb.com/3.11/deploy/deployment/single-instance/ 为了使

回答 1 投票 0

使用 doParallel 在 Slurm 作业中从 R 启动多个系统调用

我正在使用一个 R 脚本,该脚本基本上将命令行命令粘贴在一起以通过 system2() 执行。这些命令运行一些 Java 应用程序。 现在,我想生成该 Java 的多个进程

回答 1 投票 0

SLURM:在同一组节点上运行两个具有不同设置的 MPI 作业

我有一个 slurm 批处理脚本,并且正在运行英特尔 MPI。 我想在具有不同进程放置配置的同一组节点上运行两个不同的 MPI 代码。 我正在运行两个 MPI 代码,...

回答 1 投票 0

我无法将变量从 Slurm 脚本传递到 Bash 脚本

不知何故,我无法将变量从 Slurm 作业脚本传递到 Bash。我以为它以前有效,但我找不到错误。 Slurm脚本运行如下: #!/bin/bash # #SBATCH -A 节点 ...

回答 1 投票 0

当 OMP_NUM_THREADS 大于 1 时,fortran 分段错误

所以我使用以下 runaout.sh 文件执行 a.out (编译的 Fortran 代码) #!/bin/bash #SBATCH --时间=00:15:00 #SBATCH --作业名称=mhsw9 #SBATCH --节点=1 #SBATCH --nodelist=komputasi09 我是谁

回答 1 投票 0

尝试在容器中运行 R 脚本

我正在尝试运行一个名为 LINDA 的具有奇点的工具。我正在努力了解如何在容器中运行 R 脚本。到目前为止,我正在使用 slurm 运行下面的命令,但它说...

回答 1 投票 0

为正在运行的 slurm 作业添加时间

我有一份运行由 slurm 管理的 Linux 机器的工作。 现在这项工作已经运行了几个小时,我意识到我低估了它完成所需的时间,从而低估了 --time 的价值

回答 3 投票 0

使用 slurm 通过 django 网页提交作业(到 postgre 数据库)

我正在寻求有关如何进行的建议,假设这可能是一个可行的行动方案。 我编写了一个基于 Web 的界面(Django)来访问存储在(外部)数据库上的一些数据。 ...

回答 1 投票 0

如何获取SLURM中分配给当前作业的节点列表?

我有一个软件,需要发送任务的节点的纯文本列表(每个任务一次)。例如,如果我的作业是使用 -n 4 -c 1 启动的,我在 node1 中获得 3 个 CPU,在 nod 中获得 1 个 CPU...

回答 1 投票 0

为什么奇点容器在登录和 slurm HPC 上的计算节点上的行为不同

为什么我能够在奇点容器中手动运行 R 脚本而不会出现问题,但作为 slurm HPC 上的数组作业,它会在各个级别上失败。这与假设相矛盾......

回答 1 投票 0

如何修复 dockerized slurm 中的间歇性作业完成失败问题?

我正在尝试使用 docker 堆栈构建完全 docker 化的 slurm 部署,但作业无法一致完成。有谁知道为什么会这样? 除了这个问题,系统

回答 1 投票 0

在 SLURM 上运行时发送电子邮件的脚本不起作用

我有一个 bash 脚本,它执行各种每周数据收集任务并生成报告,然后将其回显到要发送的电子邮件中。我已经在 Linux 终端中手动运行了脚本...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.