Airflow 运行的 Spark EMR 实例的硬件要求

问题描述 投票:0回答:0

我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分:

spark_options=[... ('驱动程序内存', '2g'), ('执行核心', '4'), ('执行器内存', '12g'), ('num-executors', '5'), ('conf', 'spark.dynamicAllocation.maxExecutors=5'), ('conf', 'spark.yarn.executor.memoryOverhead=2048')...]

因为执行者的数量是 5,这是否意味着我完全需要这个任务 内存 (2 + 12 + 2) * 5 = 80 g 中央处理器 4 * 5 = 20

所以EMR硬件实例的请求应该是Mem 80 g / Cpu 20

正确吗?

只是想确认一下上面的估计是否正确。

amazon-web-services apache-spark pyspark airflow amazon-emr
© www.soinside.com 2019 - 2024. All rights reserved.