Pyspark中的组合数据帧

Question

我有一个供应商在一个S3存储桶上给了我多个压缩数据文件，我需要将它们一起阅读以使用Pyspark进行分析。如何修改sc.textFile（）命令？

此外，如果我要加载10个文件，该如何引用它们？还是它们都进入一个RDD？

更广泛地说，我将如何调整AMAZON EMR群集上的分区，内存？每个压缩文件的大小为3MB或未压缩的1.3GB。谢谢

Answer 1

您可以使用一个脚本，将所有解压缩文件移动到一个目录中，然后作为您的Spark代码的一部分，您可以引用该目录

rdd = sc.textFile(("s3://path/to/data/")

正如您所提到的，这是1.3 GB的数据，对于处理spark来说并不算大，您可以留意spark具有所需的分区，但是您可以在创建rdd时定义它们。

根据处理类型（内存密集型/计算密集型），选择机器类型。

HTH