将数据从AWS SQS传输到S3的最佳方法是什么？

情况就是这样 - 我有一个大型数据集，暂时保留在AWS SQS中（大约200GB）。

我的主要目标是存储数据，以便我可以使用AWS访问它以构建机器学习模型。我相信，我应该将数据传输到S3存储桶。虽然处理小数据集时很简单，但我不确定处理大数据集的最佳方法是什么。

我无法在笔记本电脑上进行本地操作，是吗？那么，我是否创建了一个ec2实例并在那里处理数据？亚马逊有很多不同的解决方案和集成方式，所以有点令人困惑。

谢谢你的帮助！

3
投票

用于使用AWS构建机器学习模型。我相信，我应该将数据传输到S3存储桶。

Imho好主意。实际上，S3是保留数据并能够重用它们的最佳选择（与sqs不同）。 AWS工具（sagemaker，ml）可以直接使用存储在s3中的内容。大多数机器学习框架都可以读取文件，您可以轻松地从s3复制文件或将存储桶作为文件系统安装（不是我最喜欢的选项，但可能）

虽然处理小数据集时很简单，但我不确定处理大数据集的最佳方法是什么。

这取决于您拥有的数据，以及如何存储和处理数据文件。

如果您计划为每个sqs消息创建一个文件，我建议创建一个lambda函数（假设您可以合理地快速读取和存储消息）。

如果要聚合和/或连接源消息或处理消息需要太长时间，您可能更愿意编写脚本来读取和处理服务器上的数据。

我无法在笔记本电脑上进行本地操作，是吗？那么，我是否创建了一个ec2实例并在那里处理数据？

嗯 - 理论上你可以在你的笔记本电脑上做，但这意味着下载200G并上传200G（不计算开销和速度延迟）

你的直觉是恕我直言，在同一地区拥有EC2是最可行的，几乎在本地访问所有数据

亚马逊有很多不同的解决方案和集成方式，所以有点令人困惑。

你有很多选择可用于不同的用例，经常重叠，所以它确实看起来很混乱