用于训练深度学习算法的VM或Azure ML

Question

我正在尝试使用 TensorFlow 训练 512x512 模型的深度学习模型。通常，我会使用 Google Colab 或云提供商中的其他 GPU 来完成此操作。但是，出于安全原因，我将在 Azure 中训练模型，其中实例的 GPU 受到限制。我当前的选择如下：

-请求 Standard_NC4as_T4_v3 作为 Azure 机器学习工作室的计算实例，并在 Azure Notebooks 中训练所有内容。我目前那里有数据集。

- 为虚拟机请求 NC4as_T4_v3 并获取 NVIDIA 映像以在虚拟机中训练模型。从 Azure 机器学习工作室获取数据不是问题。

两个选项都有 T4 GPU（16GB vRAM），因为我过去做过类似的实验，而且它对工作很有帮助。在请求访问实例之前，我想知道哪个选项更好并且更有可能被接受。

我尝试在当前可用的计算实例（Tesla K80 和 M60）中训练模型，但它们没有足够的功能，并且与最新的库已经过时。尝试使用目前唯一可用的 GPU 实例 (NV8as_v4)，但它具有 AMD GPU，不适用于深度学习训练。

Answer 1

VM 或 ML Studio 不会有太大区别，但使用 Azure ML studio 验证图像的可行性，然后我们使用深度学习模型。当我们使用azure时，计算能力可以以集群和实例的形式进行扩展，可以增加节点数量。

在 ML Studio 中，我们需要使用附加计算来增加计算能力。

Answer 2

0
投票

你最后选择了什么方案？