分布式处理如何与 spark 和 S3 一起工作？

我已经详细研究了分布式处理如何与 spark 和 HDFS 一起工作。在那个对比中我可以看到spark将分区读取为HFile，并且spark将不同的HFile加载到不同的分区以进行并行处理。但我担心在像 s3 这样的对象存储的情况下，同样的事情是如何工作的。

谁能帮我理解

apache-spark amazon-s3 distributed-computing