sagemaker中的内存一词是指GPU内存还是CPU内存?

问题描述 投票:0回答:1

我一直在使用张量流估计器在 Sagemaker 上训练模型,并且经常看到下面的失败消息。一开始,我以为它是 GPU 内存,但今天我想到它可能是 CPU 内存。有谁知道答案吗

failure message

metric curves from a failed job

我一直在谷歌上搜索答案,并意识到如果是 GPU 内存问题,错误消息(在日志中)可能会类似于下面的屏幕截图

example GPU oom error

memory deep-learning tensorflow2.0 amazon-sagemaker
1个回答
0
投票

这取决于您使用的实例类型,您可以在此处查看训练实例列表:https://aws.amazon.com/sagemaker/pricing/。基于 GPU 的实例将有 CPU 和 GPU Util 指标,您可以在 CloudWatch 指标中进行分析。

为了处理您的具体错误,我们需要更多详细信息,您的训练数据集的大小是多少,您的数据源是什么?您可以使用 S3 或 FsX Lustre,当我们处理 TB 级数据时,它们通常更适合。如果您使用 S3,将数据分布设置为 shardedbyS3Key 也很重要,这样您就不会将数据集复制到训练作业后面的每个实例中。

© www.soinside.com 2019 - 2024. All rights reserved.