slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

单个服务器的简单作业调度程序

我在不同用户之间共享一台服务器,我需要建立一个简单的工作负载管理器/作业调度系统,以便在不同用户之间公平地共享资源。我是什么......

回答 1 投票 -1

基本的Slurm问题

我一直在使用集群来做一些繁重的计算。有一些我不明白的事情。例如,到目前为止,我已将此配置用于我的所有工作#SBATCH -J ss #SBATCH -N ...

回答 2 投票 0

如何使用Shell创建具有不同名称的输出文件?

我有一个R脚本(abc.R):#!/ usr / bin / env Rscript print(“HELLO”)和包含R脚本的批处理脚本(example.sh):#!/ bin / bash模块加载Rstats模块加载RstatsPackages Rscript / home1 / ...

回答 1 投票 1

slurm限制spwaned进程的数量

我是一个新手试图安装/管理slurm。我想限制一个slurm工作可以做的分叉量。我使用了stress命令来查看slurm的CPU利用率。当我运行这个批处理脚本#...

回答 1 投票 0

`srun`直接替代

我正在尝试创建一个函数,作为SLURM的srun命令的替代品。这个包装函数的需要是我想在启动时使用srun编写脚本...

回答 1 投票 0

Slurm:使用来自多个节点的核心进行R并行化

我想在HPC上使用Slurm调度程序并行化R脚本。 SLURM配置了SelectType:CR_Core_Memory。每个计算节点有16个核心(32个线程)。我将R脚本传递给SLURM ......

回答 1 投票 2

SLURM:如何仅在特定节点上运行30个作业?

例如,您需要运行30个srun作业,但确保每个作业都在特定节点列表的节点上运行(具有相同的性能,以便公平地比较时间)。你会怎么做? ...

回答 2 投票 7

使用horovod和slurm进行keras训练

我在keras库上有这个代码,用于训练MNIST数据集上的alexnet模型。我想在运行Slurm的集群上扩展培训作为工作负载管理器和horovod(https://github.com/uber / ...

回答 1 投票 0

如何为每个任务设置1个gpu的slurm / salloc但让工作使用多个gpus?

我们正在寻找一些有关slurm salloc gpu分配的建议。目前,给定:%salloc -n 4 -c 2 -gres = gpu:1%srun env | grep CUDA CUDA_VISIBLE_DEVICES = 0 CUDA_VISIBLE_DEVICES = 0 ...

回答 2 投票 1

slurm:前端作为计算节点没有响应

与slurm类似:也使用控制节点进行计算。我想将前端用作计算节点。我在slurm.conf中进行了以下输入:NodeName = gisc RealMemory = 63000 Sockets = 1 ...

回答 1 投票 0

当先前尚未在SLURM集群上完成时,使用snakemake提交新作业

我在SLURM集群上运行Snakemake,我遇到了这样的问题:集群允许我一次只提交一个(大约20个)作业。运行snakemake.sh之后:#!/ bin / bash ...

回答 1 投票 0

DASK工人有不同的时间

我正在使用dask-jobqueue在小型SLURM集群上启动多个2-5分钟的作业(使用子进程)。我总共运行了几千个工作岗位,我偶尔会让我的工人死去并得到......

回答 1 投票 0

两个用户之间的预订

我有两个用户u1和u2以及4个节点。我想知道如何为u2创建一个仅占用1个节点的预留。但是如果u1想要使用4个节点并且它们可用(如果u2没有使用...

回答 1 投票 0

如何使用SLURM处理文件列表

我是SLURM的新手。我想并行处理文件列表assemble_reads / * .sorted.bam。但是,使用下面的代码,只有一个进程被反复使用。 #!/ bin / bash ##SBATCH --...

回答 2 投票 2

确定在SLURM中分配给批处理作业的时间量

可以在sbatch命令中将批处理作业的分配时间指定为slurm。例如,以下请求1天,3分10秒:$ sbatch -t 1-0:3:10 test.sh我的脚本需要...

回答 1 投票 0

无法打开文件'python':[Errno 2]没有这样的文件或目录

我正在为SLURM工作负载管理器编写作业提交脚本。首先,我已经加载了anaconda2 / 4.5.12(包括Python 2.7)模块。然后,我用Python3.6版本创建了Conda环境。 ...

回答 1 投票 0

sbatch将计算节点发送到“已耗尽”状态

在我们的小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和“sbatch”命令提交slurm作业。提交后,请求的节点更改为...

回答 1 投票 0

根据资源请求以slurm设置队列

我很好奇是否有办法设置Slurm分区,以便调度程序将查询可用分区并根据请求的资源量分配给分区,例如。说我......

回答 1 投票 1

Slurm超额认购GPU

有没有办法在Slurm上超额订阅GPU,即运行共享一个GPU的多个作业/作业步骤?我们只找到了超额预订CPU和内存的方法,但没有找到GPU。我们想要经营多项工作......

回答 1 投票 1

在谷歌云上的slurm部署中更改ControlPort

我在谷歌云平台上部署的我的slurm集群遇到了问题。在我的slurmctld.log文件中,我收到此错误:错误:slurm_persist_conn_open_without_init:无法打开...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.