将数据从AWS SQS传输到S3的最佳方法是什么?

问题描述 投票:3回答:1

情况就是这样 - 我有一个大型数据集,暂时保留在AWS SQS中(大约200GB)。

我的主要目标是存储数据,以便我可以使用AWS访问它以构建机器学习模型。我相信,我应该将数据传输到S3存储桶。虽然处理小数据集时很简单,但我不确定处理大数据集的最佳方法是什么。

我无法在笔记本电脑上进行本地操作,是吗?那么,我是否创建了一个ec2实例并在那里处理数据?亚马逊有很多不同的解决方案和集成方式,所以有点令人困惑。

谢谢你的帮助!

amazon-web-services amazon-s3 amazon-ec2 bigdata
1个回答
3
投票

用于使用AWS构建机器学习模型。我相信,我应该将数据传输到S3存储桶。

Imho好主意。实际上,S3是保留数据并能够重用它们的最佳选择(与sqs不同)。 AWS工具(sagemaker,ml)可以直接使用存储在s3中的内容。大多数机器学习框架都可以读取文件,您可以轻松地从s3复制文件或将存储桶作为文件系统安装(不是我最喜欢的选项,但可能)

虽然处理小数据集时很简单,但我不确定处理大数据集的最佳方法是什么。

这取决于您拥有的数据,以及如何存储和处理数据文件。

如果您计划为每个sqs消息创建一个文件,我建议创建一个lambda函数(假设您可以合理地快速读取和存储消息)。

如果要聚合和/或连接源消息或处理消息需要太长时间,您可能更愿意编写脚本来读取和处理服务器上的数据。

我无法在笔记本电脑上进行本地操作,是吗?那么,我是否创建了一个ec2实例并在那里处理数据?

嗯 - 理论上你可以在你的笔记本电脑上做,但这意味着下载200G并上传200G(不计算开销和速度延迟)

你的直觉是恕我直言,在同一地区拥有EC2是最可行的,几乎在本地访问所有数据

亚马逊有很多不同的解决方案和集成方式,所以有点令人困惑。

你有很多选择可用于不同的用例,经常重叠,所以它确实看起来很混乱

© www.soinside.com 2019 - 2024. All rights reserved.