全部,我正在尝试在Azure机器学习服务上使用Horovod训练分布式模型,如下所示。
estimator = TensorFlow(source_directory=script_folder,
entry_script='train_script.py',
script_params=script_params,
compute_target=compute_target_gpu_4,
conda_packages=['scikit-learn'],
node_count=2,
distributed_training=MpiConfiguration(),
framework_version = '1.13',
use_gpu=True
)
run = exp.submit(estimator)
谢谢。
这使用了SDK中的Tensorflow Estimator类,distributed_training设置为Mpi()。