EMR簇大小对于使用Spark从S3读取数据是否重要

问题描述投票：0回答：1

设置：最新（5.29）AWS EMR，spark，1个主1个节点。

步骤1.我已使用S3Select解析文件并收集所有文件密钥以从S3中提取。第2步。使用pyspark循环迭代键，然后执行以下操作

火花。读.format（“ s3selectCSV”）.load（键）.limit（超高值）.show（superhighvalue）

花了x分钟。

当我将群集增加到1个主节点和6个节点时，我看不到时间上的差异。在我看来，我没有使用增加的核心节点。其他一切，config wise都是默认值，我没有设置任何内容。

所以，我的问题是，使用EMR，Spark从S3读取和检查（说是日志还是打印）数据时，群集大小是否重要？

pyspark amazon-emr amazon-s3-select

1个回答

0
投票

没有什么要记住的。

您确定执行者确实因为增加节点？或者你可以在提交火花时指定它们--num-executors 6。 MOre节点确实意味着没有执行者被旋转。
下一件东西，csv文件的大小是多少？ 1MB？那么您将不会看到太大的差异。确保至少有3-4 GB

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.