IBM Spectrum LSF-访问不同HPC节点上的多个GPU

问题描述 投票:0回答:1

我正在尝试使用多个GPU:总共8个GPU,每个节点4个GPU设备,总共:2个节点。

到目前为止,我收到“内存不足错误”:

我检查了我的tensorflow代码的部分输出,仅使用了4个GPU设备。

我的tensorflow代码是具有修改后的代码的教程,该代码使用具有大型输入文件的tensorflow函数(在具有2个GPU的HPC交互式环境中,使用较小的文件,效果很好)。张量流代码自动找到GPU并将任务分散到它们之间。

我如何获得我的工作代码或python程序代码来查找和使用所有8个GPU(来自2个节点)?

HPC员工对此无能为力,并提到需要复杂的代码。最近两天,我一直在寻找好的教程,但找不到任何教程。

欢迎任何有用的建议。这是我当前的脚本:

#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash

WRKDIR=/scratch/user
ml anaconda3
source activate environ1

python3 gpu_job.py
python-3.x gpu tensorflow2.0 hpc lsf
1个回答
0
投票

改为使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]。资源需求通常是针对每个作业的。另请参阅https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html

© www.soinside.com 2019 - 2024. All rights reserved.