我已经详细研究了分布式处理如何与 spark 和 HDFS 一起工作。在那个对比中我可以看到spark将分区读取为HFile,并且spark将不同的HFile加载到不同的分区以进行并行处理。但我担心在像 s3 这样的对象存储的情况下,同样的事情是如何工作的。
谁能帮我理解
在像 S3 这样的 Spark 和对象存储的情况下,分布式并行处理如何工作?
在这种情况下如何创建分区?