我正在使用 Pytorch 估计器 (sagemaker.pytorch.estimator) 实例化 Sagemaker 训练作业。我将性能与在相同硬件(“ml.g4dn.8xlarge”)的 Sagemaker 笔记本上手动执行的相同训练任务进行了比较。
通过SDK(Pytorch估算器)实例化的作业运行时间约为15s/it。这比在笔记本上运行相同的任务要慢得多,笔记本上运行的时间为 1.6 秒/它。
通过 Sagemaker SDK 执行的训练作业预计会慢很多吗?
不一定,这也取决于你的设置。您的训练数据有多大?它位于何处?还有普通和分布式训练作业,因此这种配置也很重要。训练作业可以通过模型/数据并行以及您正在使用的数据源进行调整。
SageMaker 训练作业的不同数据源:https://aws.amazon.com/blogs/machine-learning/choose-the-best-data-source-for-your-amazon-sagemaker-training-job/