Azure机器学习工作区(MPI配置)中的Horovod时间轴和MPI跟踪

问题描述 投票:0回答:1

全部,我正在尝试在Azure机器学习服务上使用Horovod训练分布式模型,如下所示。

estimator = TensorFlow(source_directory=script_folder,
                       entry_script='train_script.py',
                       script_params=script_params,
                       compute_target=compute_target_gpu_4,
                       conda_packages=['scikit-learn'],                       
                       node_count=2,                        
                       distributed_training=MpiConfiguration(),
                       framework_version = '1.13',
                       use_gpu=True
                      )
run = exp.submit(estimator)
  • 如何启用Horovod时间轴?
  • 如何启用更详细的MPI跟踪以查看节点之间的通信?

谢谢。

distributed-computing azure-machine-learning-studio azure-machine-learning-service horovod
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.