设置:最新(5.29)AWS EMR,spark,1个主1个节点。
步骤1.我已使用S3Select解析文件并收集所有文件密钥以从S3中提取。第2步。使用pyspark循环迭代键,然后执行以下操作
火花。读.format(“ s3selectCSV”).load(键).limit(超高值).show(superhighvalue)
花了x分钟。
当我将群集增加到1个主节点和6个节点时,我看不到时间上的差异。在我看来,我没有使用增加的核心节点。其他一切,config wise都是默认值,我没有设置任何内容。
所以,我的问题是,使用EMR,Spark从S3读取和检查(说是日志还是打印)数据时,群集大小是否重要?
没有什么要记住的。
--num-executors 6
。 MOre节点确实意味着没有执行者被旋转。