我有一个供应商在一个S3存储桶上给了我多个压缩数据文件,我需要将它们一起阅读以使用Pyspark进行分析。如何修改sc.textFile()命令?
此外,如果我要加载10个文件,该如何引用它们?还是它们都进入一个RDD?
更广泛地说,我将如何调整AMAZON EMR群集上的分区,内存?每个压缩文件的大小为3MB或未压缩的1.3GB。谢谢
您可以使用一个脚本,将所有解压缩文件移动到一个目录中,然后作为您的Spark代码的一部分,您可以引用该目录
rdd = sc.textFile(("s3://path/to/data/")
正如您所提到的,这是1.3 GB的数据,对于处理spark来说并不算大,您可以留意spark具有所需的分区,但是您可以在创建rdd时定义它们。
对于Amazon EMR,您可以根据需求类型旋转较小的节点https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-supported-instance-types.html
根据处理类型(内存密集型/计算密集型),选择机器类型。
HTH