如何通过 AWS EMR 并行化大文件的 curl

问题描述投票：0回答：0

我正在尝试将一个非常大的文件 (>1Tb) 从 Web 拉入 AWS S3。通常我会使用 Requests + multipart upload 来执行此操作，但考虑到文件的大小，这最终会非常慢。在尝试寻找替代方案时，我发现使用 here 讨论的命令来完成此操作速度非常快，而且对资源的要求也不太高。

然而，这仍然很慢，即使从 EC2 实例运行，也需要数周才能完成。我是 EMR 的新手，老实说，我仍在努力了解它的工作原理，但尝试使用集群来并行化此任务似乎是一个自然的想法。我的想法是在命令中包含一个范围标头，该标头仅指定文件的一部分，然后以某种方式在 S3 中将其组合在一起（或者在命令中使用分段上传，如果存在的话）。

但我不知道如何设置集群来执行此操作，尤其是在需要拉取新块时自动提供范围的当前值。所以我的问题是——是否有一种相对简单的方法来做到这一点？或者，这甚至是正确的方法吗？

amazon-web-services

amazon-s3

curl

amazon-emr

如何通过 AWS EMR 并行化大文件的 curl

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0