如何修复:horovod.run.common.util.network.NoValidAddressesFound

问题描述 投票:1回答:1

我正在尝试使用2个nvidia docker进行分布式学习。当我尝试使用2台主机时,它无法正常工作。我该如何解决这个问题?

我试过这个命令:

horovodrun -np 3 -H localhost:1 -p 12345  python keras_mnist_advanced.py

它工作,但当我尝试:

horovodrun -np 3 -H localhost:1,192.168.0.20:2 -p 12345  python keras_mnist_advanced.py

我收到了这个错误:

启动horovodrun任务功能不成功:horovod.run.common.util.network.NoValidAddressesFound:无法连接到任何地址上的horovodrun任务服务#1:{'lo':[('127.0.0.1',30871 )],'docker0':[('172.17.0.1',30871)],'enp0s31f6':[('192.168.0.20',30871)]}

python deep-learning nvidia horovod
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.