EMR簇大小对于使用Spark从S3读取数据是否重要

问题描述 投票:0回答:1

设置:最新(5.29)AWS EMR,spark,1个主1个节点。

步骤1.我已使用S3Select解析文件并收集所有文件密钥以从S3中提取。第2步。使用pyspark循环迭代键,然后执行以下操作

火花。读.format(“ s3selectCSV”).load(键).limit(超高值).show(superhighvalue)

花了x分钟。

当我将群集增加到1个主节点和6个节点时,我看不到时间上的差异。在我看来,我没有使用增加的核心节点。其他一切,config wise都是默认值,我没有设置任何内容。

所以,我的问题是,使用EMR,Spark从S3读取和检查(说是日志还是打印)数据时,群集大小是否重要?

pyspark amazon-emr amazon-s3-select
1个回答
0
投票

没有什么要记住的。

  1. 您确定执行者确实因为增加节点?或者你可以在提交火花时指定它们--num-executors 6。 MOre节点确实意味着没有执行者被旋转。
  2. 下一件东西,csv文件的大小是多少? 1MB?那么您将不会看到太大的差异。确保至少有3-4 GB
© www.soinside.com 2019 - 2024. All rights reserved.