如何通过 AWS EMR 并行化大文件的 curl

问题描述 投票:0回答:0

我正在尝试将一个非常大的文件 (>1Tb) 从 Web 拉入 AWS S3。通常我会使用 Requests + multipart upload 来执行此操作,但考虑到文件的大小,这最终会非常慢。在尝试寻找替代方案时,我发现使用 here 讨论的命令来完成此操作速度非常快,而且对资源的要求也不太高。

然而,这仍然很慢,即使从 EC2 实例运行,也需要数周才能完成。我是 EMR 的新手,老实说,我仍在努力了解它的工作原理,但尝试使用集群来并行化此任务似乎是一个自然的想法。我的想法是在命令中包含一个范围标头,该标头仅指定文件的一部分,然后以某种方式在 S3 中将其组合在一起(或者在命令中使用分段上传,如果存在的话)。

但我不知道如何设置集群来执行此操作,尤其是在需要拉取新块时自动提供范围的当前值。所以我的问题是——是否有一种相对简单的方法来做到这一点?或者,这甚至是正确的方法吗?

amazon-web-services amazon-s3 curl amazon-emr
© www.soinside.com 2019 - 2024. All rights reserved.