预处理 s3 中存储的 2 GB 数据时,amazon sagemaker 出现内存错误。加载数据没有问题。数据维度为700万行64列。一种热编码也是不可能的。这样做会导致内存错误。 笔记本实例是ml.t2.medium。如何解决这个问题?
我假设您正在处理笔记本实例上的数据,对吗? t2.medium 只有 4GB RAM,因此很可能您只是内存不足。
您尝试过更大的实例吗?规格在这里:https://aws.amazon.com/sagemaker/pricing/instance-types/
您可以在 https://forums.aws.amazon.com/forum.jspa?forumID=285 下剪切 AWS 论坛帖子吗?带着你的问题。这样,SageMaker 团队就能为您提供帮助。
我相信您现在已经有了答案,了解这一点会很有趣。但是当我遇到类似的问题时,我们做了这些事情,并且稍微提高了性能。
回想起来,加载整个数据范围并不是最好的方法,主要的改进是使用批处理。