SLURM是一个开源资源管理器,专为各种规模的Linux集群而设计。
我有一份运行由 slurm 管理的 Linux 机器的工作。 现在这项工作已经运行了几个小时,我意识到我低估了它完成所需的时间,从而低估了 --time 的价值
使用 slurm 通过 django 网页提交作业(到 postgre 数据库)
我正在寻求有关如何进行的建议,假设这可能是一个可行的行动方案。 我编写了一个基于 Web 的界面(Django)来访问存储在(外部)数据库上的一些数据。 ...
我有一个软件,需要发送任务的节点的纯文本列表(每个任务一次)。例如,如果我的作业是使用 -n 4 -c 1 启动的,我在 node1 中获得 3 个 CPU,在 nod 中获得 1 个 CPU...
为什么奇点容器在登录和 slurm HPC 上的计算节点上的行为不同
为什么我能够在奇点容器中手动运行 R 脚本而不会出现问题,但作为 slurm HPC 上的数组作业,它会在各个级别上失败。这与假设相矛盾......
如何修复 dockerized slurm 中的间歇性作业完成失败问题?
我正在尝试使用 docker 堆栈构建完全 docker 化的 slurm 部署,但作业无法一致完成。有谁知道为什么会这样? 除了这个问题,系统
我有一个 bash 脚本,它执行各种每周数据收集任务并生成报告,然后将其回显到要发送的电子邮件中。我已经在 Linux 终端中手动运行了脚本...
使用Python子进程运行SLURM脚本将多个长作业提交到队列并等待作业完成后再继续Python脚本
情况的基本情况是,我正在使用 Python 的子进程模块来运行 SLURM 脚本,该脚本将许多作业提交到我使用的一些 HPC 资源上的队列。我想要 Python 脚本...
我已向服务器提交了 Slurm 作业,虽然我可以在终端上查看输出,但 slurm.out 文件中没有生成输出。令人惊讶的是,没有报告任何错误,并且......
我有一种情况,使用终端(在PC主节点上)我可以进入属于另一台PC(在PC节点1上)的磁盘,但是SLURM没有。 在终端上:我在主节点“/mnt/m...
无法使用 sbcast 将文件从 master 复制到计算节点
我有一个由 6 个计算节点和 1 个主节点组成的集群,用于学术研究目的。我正在尝试测试我的集群并确保它们可以完成提交的各种批处理作业。我...
使用 SLURM 进行 PyTorch 分布式运行会导致“找不到地址系列”
当尝试使用 SLURM 脚本在集群上的 2 个节点(每个节点有 2 个 GPU)上通过 torch.distributed.run 运行示例 python 文件时,我遇到以下错误: [W socket.cpp:426] [c10d] s...
我有一个计算成本高昂的模拟函数,我希望将其分布到多节点集群上。代码看起来像这样: 输入任务 = [输入_0、输入_1、...、输入_n] 为...
我想运行一个运行并创建检查点文件的程序。然后我想运行几个从该检查点开始的变体配置。 例如,如果我运行: sbatch -n 1 -t 12:00:0...
错误:_slurm_rpc_node_registration 节点=xxxxx:参数无效
我正在尝试设置 Slurm - 我只有一个登录节点(称为 ctm-login-01)和一个计算节点(称为 ctm-deep-01)。我的计算节点有多个 CPU 和 3 个 GPU。 我的计算节点一直处于...
未设置 --gres 时,Slurm 不限制作业中可用 GPU 的数量
我有一个带有 4 个 GPU 的一体化节点。我遇到的问题是,如果未设置 --gres=gpu:n,则所有 GPU 都可用于作业。 环境“$CUDA_VISIBLE_DEVICES”为空。这是预料之中的。 这...
根据我的理解,我在资源分配方面遇到了一些麻烦 文档并将其应用到配置文件我期待一些不会发生的行为...
如何从 SLURM 获取详细的作业运行信息(例如,LSF 为“标准输出”生成的信息)?
当将 bsub 与 LSF 结合使用时,-o 选项提供了很多详细信息,例如作业何时开始和结束以及作业占用了多少内存和 CPU 时间。使用 SLURM,我得到的只是相同的标准输出...
我想问是否可以在单个GPU上运行多个作业(通过作业数组)(即共享GPU)。我这样问是因为每个任务只占用 3GB GPU RAM,因此如果可以的话......
如何取消 DependencyNeverSatisfied 中的作业
我想清理队列并删除状态为 DependencyNeverSatisfied 的待处理作业。 我没有为该状态下的每个作业 ID 执行 scancel,而是想知道是否存在任何选项...
如何使用--slurm在snakemake工作流程中设置足够的资源用于管道输出?
我成功地使用 --profile 和 --slurm 一起在我们的 slurm 集群上运行了相当大的 Snakemake 工作流程,但是如果我将其中任何一个排除在命令之外,我都会收到错误/失败的作业。 ...