Pyspark中的组合数据帧

问题描述 投票:0回答:1

我有一个供应商在一个S3存储桶上给了我多个压缩数据文件,我需要将它们一起阅读以使用Pyspark进行分析。如何修改sc.textFile()命令?

此外,如果我要加载10个文件,该如何引用它们?还是它们都进入一个RDD?

更广泛地说,我将如何调整AMAZON EMR群集上的分区,内存?每个压缩文件的大小为3MB或未压缩的1.3GB。谢谢

pyspark apache-spark-sql amazon-emr
1个回答
1
投票

您可以使用一个脚本,将所有解压缩文件移动到一个目录中,然后作为您的Spark代码的一部分,您可以引用该目录

rdd = sc.textFile(("s3://path/to/data/")

正如您所提到的,这是1.3 GB的数据,对于处理spark来说并不算大,您可以留意spark具有所需的分区,但是您可以在创建rdd时定义它们。

对于Amazon EMR,您可以根据需求类型旋转较小的节点https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-supported-instance-types.html

根据处理类型(内存密集型/计算密集型),选择机器类型。

HTH

© www.soinside.com 2019 - 2024. All rights reserved.