分布式Tensorflow:aw / ps上的ps / worker主机?

问题描述 投票:3回答:2

我在使用gpus的aws上使用分布式Tensorflow。当我在本地机器上训练模型时,我将ps_host / workers_host指示为'localhost:2225'。在aws的情况下我需要使用什么ps / worker主机?

python tensorflow tensorflow-gpu
2个回答
2
投票

这是一个很好的github项目,展示如何在AWS上使用分布式TensorFlow与Kubernetes或新的AWS SageMaker:https://github.com/pipelineai/pipeline

至少,您应该使用TensorFlow Estimator API。分布式TensorFlow有很多隐藏的,没有很好记录的技巧。

一些更好的例子住在这里:https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census


0
投票

当在集群上运行分布式TF代码时,可以通过“private ip: port number”访问其他节点。

但AWS的问题是其他节点无法轻松启动,需要额外配置。

© www.soinside.com 2019 - 2024. All rights reserved.