我正在使用Amazon SageMaker来训练包含大量数据的模型。这需要很多时间 - 几小时甚至几天。在此期间,我希望能够查询培训师并查看其当前状态,尤其是:
一种方法是明确告诉培训师在每次迭代后打印调试消息。但是,这些消息只能在我运行培训师的控制台上使用。由于培训需要花费很多时间,因此我希望能够从不同的计算机远程查询培训师状态。
有没有办法远程查询正在运行的培训师的状态?
所有日志均可在Amazon Cloudwatch中使用。您可以通过编程方式或通过API查询CloudWatch来解析日志。
您使用的是内置算法还是MXNet或TensorFlow等框架?对于TensorFlow,您可以使用TensorBoard监控您的工作。
此外,您可以使用describe training job API调用查看高级作业状态:
import sagemaker
sm_client = sagemaker.Session().sagemaker_client
print(sm_client.describe_training_job(TrainingJobName='You job name here'))