slurm 相关问题

SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。

使用Python子进程运行SLURM脚本将多个长作业提交到队列并等待作业完成后再继续Python脚本

情况的基本情况是,我正在使用 Python 的子进程模块来运行 SLURM 脚本,该脚本将许多作业提交到我使用的一些 HPC 资源上的队列。我想要 Python 脚本...

回答 2 投票 0

Slurm.out 中没有输出

我已向服务器提交了 Slurm 作业,虽然我可以在终端上查看输出,但 slurm.out 文件中没有生成输出。令人惊讶的是,没有报告任何错误,并且......

回答 1 投票 0

SLURM 从其他节点的磁盘读取

我有一种情况,使用终端(在PC主节点上)我可以进入属于另一台PC(在PC节点1上)的磁盘,但是SLURM没有。 在终端上:我在主节点“/mnt/m...

回答 1 投票 0

无法使用 sbcast 将文件从 master 复制到计算节点

我有一个由 6 个计算节点和 1 个主节点组成的集群,用于学术研究目的。我正在尝试测试我的集群并确保它们可以完成提交的各种批处理作业。我...

回答 1 投票 0

使用 SLURM 进行 PyTorch 分布式运行会导致“找不到地址系列”

当尝试使用 SLURM 脚本在集群上的 2 个节点(每个节点有 2 个 GPU)上通过 torch.distributed.run 运行示例 python 文件时,我遇到以下错误: [W socket.cpp:426] [c10d] s...

回答 1 投票 0

在 slurm 中跨节点分发 python 代码

我有一个计算成本高昂的模拟函数,我希望将其分布到多节点集群上。代码看起来像这样: 输入任务 = [输入_0、输入_1、...、输入_n] 为...

回答 1 投票 0

我可以递归调用sbatch吗?

我想运行一个运行并创建检查点文件的程序。然后我想运行几个从该检查点开始的变体配置。 例如,如果我运行: sbatch -n 1 -t 12:00:0...

回答 2 投票 0

错误:_slurm_rpc_node_registration 节点=xxxxx:参数无效

我正在尝试设置 Slurm - 我只有一个登录节点(称为 ctm-login-01)和一个计算节点(称为 ctm-deep-01)。我的计算节点有多个 CPU 和 3 个 GPU。 我的计算节点一直处于...

回答 2 投票 0

未设置 --gres 时,Slurm 不限制作业中可用 GPU 的数量

我有一个带有 4 个 GPU 的一体化节点。我遇到的问题是,如果未设置 --gres=gpu:n,则所有 GPU 都可用于作业。 环境“$CUDA_VISIBLE_DEVICES”为空。这是预料之中的。 这...

回答 1 投票 0

slurm 工作正在等待中,但资源可用

根据我的理解,我在资源分配方面遇到了一些麻烦 文档并将其应用到配置文件我期待一些不会发生的行为...

回答 1 投票 0

如何从 SLURM 获取详细的作业运行信息(例如,LSF 为“标准输出”生成的信息)?

当将 bsub 与 LSF 结合使用时,-o 选项提供了很多详细信息,例如作业何时开始和结束以及作业占用了多少内存和 CPU 时间。使用 SLURM,我得到的只是相同的标准输出...

回答 2 投票 0

在单个 GPU 上对多个作业数组进行 Slurm?

我想问是否可以在单个GPU上运行多个作业(通过作业数组)(即共享GPU)。我这样问是因为每个任务只占用 3GB GPU RAM,因此如果可以的话......

回答 1 投票 0

如何取消 DependencyNeverSatisfied 中的作业

我想清理队列并删除状态为 DependencyNeverSatisfied 的待处理作业。 我没有为该状态下的每个作业 ID 执行 scancel,而是想知道是否存在任何选项...

回答 1 投票 0

如何使用--slurm在snakemake工作流程中设置足够的资源用于管道输出?

我成功地使用 --profile 和 --slurm 一起在我们的 slurm 集群上运行了相当大的 Snakemake 工作流程,但是如果我将其中任何一个排除在命令之外,我都会收到错误/失败的作业。 ...

回答 0 投票 0

Slurm:处理云调度系统中POWER_UP失败的节点

问题 当前行为和问题描述 当节点无法 POWER_UP 时,它会被标记为 DOWN。虽然这通常是一个好主意,但在使用云节点时这没有用,因为说

回答 1 投票 0

如何让我的 Slurm 脚本在文件名列表上循环?

我有一个 slurm 脚本来运行我的 python 代码: #!/bin/bash -l #SBATCH --nodes=1 ...

回答 1 投票 0

在 SLURM 集群上通过 cron 作业调用 snakemake 时提交作业脚本时出错(退出代码 127)

我正在尝试通过 crontab 在 SLURM 集群上运行 snakemake 管道。这是我用来发送到 slurm 的 bash 脚本。 #!/bin/庆典 #SBATCH --job-name=nextstrain snakemake --configfile

回答 2 投票 0

Snakemake 包装器在没有互联网的情况下无法在 SLURM 集群计算节点上工作

我正在尝试在 SLURM 集群上的管道中使用包装器,其中计算节点无法访问互联网。 我首先使用 --conda-create-envs-only 运行了管道,然后更改了

回答 1 投票 0

如何在没有互联网的情况下在 SLURM 集群计算节点上使用 Snakemake 包装器?

我正在尝试在 SLURM 集群上的管道中使用包装器,其中计算节点无法访问互联网。 我首先使用 --conda-create-envs-only 运行了管道,然后更改了

回答 0 投票 0

如何在没有互联网的情况下在 SLURM 集群计算节点上使用 Snakemake 包装器?

我正在尝试在 SLURM 集群上的管道中使用包装器,其中计算节点无法访问互联网。 我首先使用 --conda-create-envs-only 运行了管道,然后更改了

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.