slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

如何从本地机器提交 Slurm 作业到 GPU 集群?

我想知道是否可以在不登录 GPU 集群的情况下从本地计算机提交 Slurm 作业?例如:每次我需要提交作业时,我都必须复制可执行文件...

回答 0 投票 0

将 "胖 "节点分割成多个Slurm节点。

根据SLURM FAQ。Slurm可以模拟一个更大的集群吗?是的,这对于测试目的来说是有用的。它也被用来将 "胖 "节点分割成多个Slurm节点。有 ...

回答 1 投票 1

从神圣的输出的互译:ex+的含义。

我想知道一个作业是使用了一个还是两个CPU,基于以下圣物的相互创造。我已经搜索了关于ex+行的含义的文档,但没有发现任何东西:应该如何 ...

回答 1 投票 0

将bash变量导入slurm脚本中

我看到过类似的问题,但和我的不完全一样。在slurm sbatch脚本中使用bash变量,因为我说的不是slurm参数。我想启动一个slurm作业,为每个 ...

回答 1 投票 0

有没有人在HPC上用SBATCH设置成功地在bash中使用shopt -s extglob(扩展glob)?

总结一下:我使用的是bash shell,版本:4.2.46(2)。4.2.46(2)-release,我想提交一个批处理作业脚本到slurm作业调度器,在脚本中我使用了扩展的globbing,是用shopt打开的...。

回答 1 投票 0

以用户身份获取SLURM集群中允许的最大作业数。

我在一个基于SLURM的集群上工作,我想知道是否存在一个命令(或一个配置文件),我可以以用户身份运行,以了解我被允许运行的作业的最大数量 ...

回答 1 投票 0

我通过Perl API向SLURM提交工作时需要的`job_desc_msg_t`格式是什么?

SLURM的Perl API指出,要用API提交一个工作,需要我们给它一个 "工作描述"($job_desc或$job_desc_msg),它的结构是job_desc_msg_t,但它没有告诉......

回答 1 投票 1

显示 slurm 作业的 GPU 内存使用情况和利用率。

我正在使用slurm来访问GPU资源。是否可以显示正在运行的 slurm 作业的 GPU 使用情况?就像在普通的交互式shell中使用nvidia-smi一样。

回答 1 投票 1

通过Python提交SLURM工作的最佳实践

这算是一个一般的最佳实践问题。我有一个Python脚本,它迭代一些参数,然后用这些参数调用另一个脚本 (它基本上是对一些简单的网格搜索 ...

回答 1 投票 0

使用 C API 访问 Slurm 作业资源时出现 Dereference 错误。

我试图使用C API获取Slurm集群中每个作业的内存使用信息。#include #include #include #include "slurmslurm.h" #...

回答 1 投票 0

slurm中的作业数组规格无效

我在slurm中提交了一个玩具数组作业。我的命令行是 $ sbatch -p development -t 0:30:0 -n 1 -a 1-2 j1 其中 j1 是脚本。#!binbash echo job id is $SLURM_JOB_ID echo array job id is $...。

回答 2 投票 3

Worker初始化失败:并行处理中没有软件包

我试图在R中使用'spatial.tools'R包中的R函数focal_hpc来并行化一个函数。我在SLURM服务器中使用这个脚本。这是我运行的一个例子。f_mean = ...

回答 1 投票 0

有没有办法知道Slurm中分配的节点何时变得可用?

sinfo 只显示 Slurm 节点的当前状态(分配、空闲等)和时间限制。 squeue 似乎只显示用户自己提交的作业,而不显示其他用户提交的作业。...

回答 1 投票 0

工作完成退出时的SLURM状态字符串

我如何在作业完成时(在提交脚本中)得到slurm作业状态(例如:COMPLETED, FAILED, TIMEOUT, ...)?例如,我想单独跟踪那些超时的工作......。

回答 1 投票 0

如何在HPC上访问和查询mongodb?

我想使用pymongo对MongoDB数据库进行并行查询。我使用的是一个HPC系统,它使用Slurm作为工作负载管理器。我的设置在单个节点上运行良好,但...

回答 1 投票 1

如何在slurm id的同一个节点上运行一个多输入的python代码?

我想运行一个python程序10次,并将不同的输出文件保存为output_1、output_2、output_3......等等。它可以使用1个处理器和10个线程来运行。我可以使用96个CPU,在一个 ...

回答 1 投票 0

分配给SLURM工作的核心

比方说,我想提交一个slurm作业,只是分配总的任务量(--ntasks=someNumber),而不指定节点的数量和每个节点的任务。有没有一种方法可以知道在 ...

回答 1 投票 1

awk在循环中使用时没有打印任何内容[重复] 。

我有一堆使用file.1.a.1.txt格式的文件,看起来是这样的。A 1 B 2 C 3 D 4 用下面的命令添加了一列新的文件名: awk '{print ...

回答 1 投票 2

SLURM和Pytorch如何共同处理多节点多gpu训练的问题

我想问一下,在使用Slurm管理工作负载的集群中,当使用多节点多gpu进行训练时,梯度如何聚集。代码是用Pytorch写的。例如当启动...

回答 1 投票 0

如何解释sinfo cpu负载%O?

sinfo --format“%O”给出节点的负载。这是特定时间段的平均值吗?这个值与正常运行时间命令的平均负载(1m,5m,15m)有何关系?谢谢

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.