分布式处理如何与 spark 和 S3 一起工作?

问题描述 投票:0回答:0

我已经详细研究了分布式处理如何与 spark 和 HDFS 一起工作。在那个对比中我可以看到spark将分区读取为HFile,并且spark将不同的HFile加载到不同的分区以进行并行处理。但我担心在像 s3 这样的对象存储的情况下,同样的事情是如何工作的。

谁能帮我理解

  1. 在像 S3 这样的 Spark 和对象存储的情况下,分布式并行处理如何工作?

  2. 在这种情况下如何创建分区?

apache-spark amazon-s3 distributed-computing
© www.soinside.com 2019 - 2024. All rights reserved.