在培训期间观看SageMaker

问题描述 投票:2回答:1

我正在使用Amazon SageMaker来训练包含大量数据的模型。这需要很多时间 - 几小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,尤其是:

  • 它已经完成了多少次迭代,还需要完成多少次迭代? (训练算法是深度学习 - 它基于迭代)。
  • 完成培训需要多长时间?
  • 理想情况下,我想使用当前迭代的模型对测试样本进行分类,以查看其当前的性能。

一种方法是明确告诉培训师在每次迭代后打印调试消息。但是,这些消息只能在我运行培训师的控制台上使用。由于培训需要花费很多时间,因此我希望能够从不同的计算机远程查询培训师状态。

有没有办法远程查询正在运行的培训师的状态?

machine-learning amazon-sagemaker
1个回答
2
投票

所有日志均可在Amazon Cloudwatch中使用。您可以通过编程方式或通过API查询CloudWatch来解析日志。

您使用的是内置算法还是MXNet或TensorFlow等框架?对于TensorFlow,您可以使用TensorBoard监控您的工作。

此外,您可以使用describe training job API调用查看高级作业状态:

import sagemaker
sm_client = sagemaker.Session().sagemaker_client
print(sm_client.describe_training_job(TrainingJobName='You job name here'))
© www.soinside.com 2019 - 2024. All rights reserved.