我正在为 Airflow 作业运行的 spark 任务请求 EMR 集群。我有以下带有 spark 任务选项的 Airflow DAG 部分:
spark_options=[... ('驱动程序内存', '2g'), ('执行核心', '4'), ('执行器内存', '12g'), ('num-executors', '5'), ('conf', 'spark.dynamicAllocation.maxExecutors=5'), ('conf', 'spark.yarn.executor.memoryOverhead=2048')...]
因为执行者的数量是 5,这是否意味着我完全需要这个任务 内存 (2 + 12 + 2) * 5 = 80 g 中央处理器 4 * 5 = 20
所以EMR硬件实例的请求应该是Mem 80 g / Cpu 20
正确吗?
只是想确认一下上面的估计是否正确。