运行时霍洛韦德弹性调整工人数

问题描述 投票:0回答:1

我一直在docker中使用TensorFlow和PyTorch来使用Horovod,在Horovod docker中所述的固定数量的容器下,一切正常。

我已经检查了Horovod Elastic Demos Horovod examples,但它们没有显示如何在运行时更改工作者的数量。

我需要知道如何在运行时增加或减少工作人员的数量?

[我一直在docker中使用TensorFlow和PyTorch来使用Horovod,在固定数量的容器下一切正常,如Horovod docker中所述,我已经检查了Horovod Elastic ...] >>

您需要做的是特定于Docker的主机发现,该发现会告诉Elastic Horovod所有可用的容器。一种通用的方法是使用horovodrun,并通过--host-discovery-script提供主机发现脚本。调用时,脚本返回可用主机列表。请参阅Running with horovodrun文档的Elastic Horovod部分。

在不久的将来,Horovod中将内置特定于服务提供商的主机发现,因此用户无需为通用提供商实现脚本。

docker tensorflow pytorch mpi horovod
1个回答
0
投票

您需要做的是特定于Docker的主机发现,该发现会告诉Elastic Horovod所有可用的容器。一种通用的方法是使用horovodrun,并通过--host-discovery-script提供主机发现脚本。调用时,脚本返回可用主机列表。请参阅Running with horovodrun文档的Elastic Horovod部分。

© www.soinside.com 2019 - 2024. All rights reserved.