slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

如何在HPC上访问和查询mongodb?

我想使用pymongo对MongoDB数据库进行并行查询。我使用的是一个HPC系统,它使用Slurm作为工作负载管理器。我的设置在单个节点上运行良好,但...

回答 1 投票 1

如何在slurm id的同一个节点上运行一个多输入的python代码?

我想运行一个python程序10次,并将不同的输出文件保存为output_1、output_2、output_3......等等。它可以使用1个处理器和10个线程来运行。我可以使用96个CPU,在一个 ...

回答 1 投票 0

分配给SLURM工作的核心

比方说,我想提交一个slurm作业,只是分配总的任务量(--ntasks=someNumber),而不指定节点的数量和每个节点的任务。有没有一种方法可以知道在 ...

回答 1 投票 1

awk在循环中使用时没有打印任何内容[重复] 。

我有一堆使用file.1.a.1.txt格式的文件,看起来是这样的。A 1 B 2 C 3 D 4 用下面的命令添加了一列新的文件名: awk '{print ...

回答 1 投票 2

SLURM和Pytorch如何共同处理多节点多gpu训练的问题

我想问一下,在使用Slurm管理工作负载的集群中,当使用多节点多gpu进行训练时,梯度如何聚集。代码是用Pytorch写的。例如当启动...

回答 1 投票 0

如何解释sinfo cpu负载%O?

sinfo --format“%O”给出节点的负载。这是特定时间段的平均值吗?这个值与正常运行时间命令的平均负载(1m,5m,15m)有何关系?谢谢

回答 1 投票 0

使用Slurm Scheduler在多个节点上运行MPI作业

我正在尝试运行具有特定任务/节点配置的MPI应用程序。我总共需要运行8个MPI任务,其中4个在一个节点上,另外4个在另一个节点上。这是我正在使用的脚本文件:#!/ ...

回答 1 投票 0

我如何同时在多个目录中执行SLURM脚本?

我想同时从多个目录中执行SLURM脚本。更具体地说,我有十个数组文件夹,编号为array_1到array_10,我要从中执行脚本。 ...

回答 1 投票 0

使用AWS ParallelCluster设置Slurm记帐(sacct)

我正在尝试使用AWS ParallelCluster在AWS上设置Slurm计算集群,以用于我们的某些批处理需求。但是,我发现未设置Slurm的工作核算工具...

回答 1 投票 0

阵列中所有作业的有效作业效率报告

我希望收集作业阵列中所有作业的效率报告。 seff命令实际上没有选项。当我为阵列作业ID运行seff命令时,我只会得到效率...

回答 1 投票 0

如何通过SLURM管理器分发自定义代码?

我可以使用SLURM管理器访问计算机集群。我想实现不同的节点执行代码的不同部分。如果我正确理解,可以通过SLURM与...

回答 1 投票 0

从父项口语作业中启动多个作业

我想启动一个工作,该工作可以启动3个工作,以使其同时运行。这是我的脚本:#!/ bin / sh #SBATCH -N 1 #SBATCH -n 3 #SBATCH -c 1 #SBATCH -t 00:10:00#作业1:srun -n 10 -...

回答 1 投票 0

Out of memory kill

我在创建一个太大的矩阵时遇到了问题,该矩阵具有Slurm簇(内存不足被杀死)。我该如何解决该问题?以下代码是有关分配矩阵的代码部分:...

回答 1 投票 0

SLURM批处理输出缓冲

我创建了一些Slurm脚本,然后尝试使用sbatch执行它们。但是输出文件的更新频率不高(可能每分钟更新一次)。有没有办法在...

回答 1 投票 5

SLURM srun不并行运行python脚本,但可以访问并行资源

我正在尝试运行python脚本,其中的部分代码将根据一些SLURM环境变量进行并行化。我认为确切的代码并不重要,但作为参考,我...

回答 1 投票 0

编译器未使用所有CPU,我需要您的建议

我的电脑有两个cpu xeon e5-2678v3,每个cpu 12个内核/ 24个线程(总共24个内核/ 48个线程),我提交了slurm批处理作业,要求我的代码使用多核(带有intel fortran编译器的CFD fortran代码...

回答 1 投票 0

Snakemake Slurm输出文件重定向到新目录

我正在整理一个snakemake的slurm工作流程,并遇到我的工作目录变得混乱不堪的问题。我希望我的工作流至少指导这些...

回答 1 投票 0

dask-ssh在hpc上失败:没有可用的身份验证方法

[当我尝试运行命令:dask-ssh sn010 sn179时,我得到以下信息:Dask.distributed v2.12.0 Worker节点:0:sn010 1:sn179调度程序节点:sn010:8786 [dask-ssh]:SSH ...

回答 1 投票 0

如何使用Slurm C API获取内存使用信息?

我正在寻找使用C API从Slurm获取每个作业的内存使用情况信息的方法,即使用的内存和保留的内存。我以为我可以通过调用slurm_load_jobs(...)获得此类统计信息,但是...

回答 1 投票 0

在具有SLURM的HPC系统上使用GNU Parallel运行带有两个输入文件的python文件的多个实例

我尝试在HPC系统上并行运行单个python文件240次(因为每个单独的文件运行大约需要9分钟)。理想情况下,每个python文件都应在单个内核上运行。有24个核心...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.