Cloud ML:对相同数据采用不同的培训时间

问题描述 投票:0回答:1

我正在使用Google Cloud ML来培训工作。我观察到一种奇特的行为,在这种行为中,我观察到培训工作为完成相同数据所花费的时间。我分析了云ML控制台中的CPU和内存利用率,并在两种情况下(7分钟和14分钟)看到非常相似的利用率。任何人都可以让我知道服务的原因是什么时间不足以完成工作。我在两种情况下都有相同的参数和数据,并且还证实在两种情况下在PREPARING阶段花费的时间几乎相同。同样重要的是我在同一个项目上同时安排多个独立的培训工作,如果是这样,那么我想知道它背后的基本原理。任何帮助将不胜感激。

google-cloud-ml
1个回答
0
投票

最简单的方法是添加更多日志记录以检查花费的时间。您还可以使用TensorBoard检查培训进度。多个作业之间没有VM共享,因此不太可能由同时作业引起。

此外,应从作业进入RUNNING状态的时间点开始测量运行时间。作业启动延迟取决于它的冷启动或热启动(即,我们将VM保留以前的作业运行一段时间)。

© www.soinside.com 2019 - 2024. All rights reserved.