为什么EMR上的Yarn不会将所有节点都分配给运行Spark作业?

问题描述 投票:12回答:2

我在Amazon Elastic Map Reduce(EMR)上运行Apache Spark上的工作。目前我正在运行emr-4.1.0,其中包括Amazon Hadoop 2.6.0和Spark 1.5.0。

当我开始工作时,YARN正确地将所有工作节点分配给spark作业(当然,其中一个用于驱动程序)。

我将魔术“maximizeResourceAllocation”属性设置为“true”,并将spark属性“spark.dynamicAllocation.enabled”也设置为“true”。

但是,如果通过将节点添加到工作计算机的CORE池来调整emr集群的大小,则YARN仅将一些新节点添加到spark作业。

例如,今天早上我有一个使用26个节点的工作(m3.2xlarge,如果这很重要) - 1个用于驱动程序,25个执行程序。我想加快工作,所以我尝试添加8个节点。 YARN已经获取了所有新节点,但只将其中一个分配给了Spark作业。 Spark成功地接收了新节点,并将其用作执行器,但我的问题是为什么YARN让其他7个节点闲置?

由于显而易见的原因,这很烦人 - 即使它们没有被使用,我也必须为资源付费,而我的工作根本没有加速!

有人知道YARN如何决定何时添加节点来运行火花作业?什么变量发挥作用?记忆? V-核心?什么?

提前致谢!

apache-spark yarn emr amazon-emr elastic-map-reduce
2个回答
17
投票

好的,在@sean_r_owen的帮助下,我能够追踪到这一点。

问题在于:当将spark.dynamicAllocation.enabled设置为true时,不应设置spark.executor.instances - 显式值将覆盖动态分配并将其关闭。事实证明,如果您不自己设置,EMR会将其设置在后台。要获得所需的行为,您需要将spark.executor.instances显式设置为0。

对于记录,这是我们在创建EMR集群时传递给--configurations标志的其中一个文件的内容:

[
    {
        "Classification": "capacity-scheduler",
        "Properties": {
            "yarn.scheduler.capacity.resource-calculator": "org.apache.hadoop.yarn.util.resource.DominantResourceCalculator"
        }
    },

    {
        "Classification": "spark",
        "Properties": {
            "maximizeResourceAllocation": "true"
        }
    },

    {
        "Classification": "spark-defaults",
        "Properties": {
            "spark.dynamicAllocation.enabled": "true",
            "spark.executor.instances": "0"
        }
    } 
]

这为我们提供了一个EMR集群,其中Spark在运行作业时使用所有节点,包括添加的节点。它似乎也使用全部/大部分内存和所有(?)内核。

(我不完全确定它使用的是所有实际核心;但它肯定使用了超过1个VCore,这是以前没有的,但是按照Glennie Helles的建议,它现在表现得更好并且使用了一半列出的VCores,这似乎等于核心的实际数量...)


0
投票

我使用emr-5.20.0在几乎相同的设置中观察到了相同的行为。我没有尝试在集群已经运行但是使用TASK节点(只有一个CORE节点)时添加节点。我正在使用InstanceFleets来定义MASTER,CORE和TASK节点(使用InstanceFleets我不知道我得到了哪些确切的InstanceTypes,这就是为什么我不想自己定义每个执行程序的执行程序,内核和内存的数量但是想要要自动最大化/优化)。

有了这个,它只使用两个TASK节点(可能是前两个准备使用的节点?),但是在更多TASK节点配置完成并完成引导阶段时从不扩展。

在我的情况下使它工作的是设置spark.default.parallelism参数(到我的TASK节点的核心总数),这与用于TASK InstanceFleet的TargetOnDemandCapacity或TargetSpotCapacity的数字相同:

[
    {
        "Classification": "capacity-scheduler",
        "Properties": {
            "yarn.scheduler.capacity.resource-calculator": "org.apache.hadoop.yarn.util.resource.DominantResourceCalculator"
        }
    },
    {
        "Classification": "spark",
        "Properties": {
            "maximizeResourceAllocation": "true"
        }
    },
    {
        "Classification": "spark-defaults",
        "Properties": {
            "spark.dynamicAllocation.enabled": "true",
            "spark.default.parallelism", <Sum_of_Cores_of_all_TASK_nodes>
        }
    } 
]

为了完整起见:我使用一个CORE节点和几个TASK节点主要是为了确保集群至少有3个节点(1个MASTER,1个CORE和至少一个TASK节点)。在我尝试仅使用CORE节点之前,但在我的情况下,根据实际任务计算核心数量,最终可能只有一个MASTER和一个CORE节点组成的集群。使用maximizeResourceAllocation选项,这样的集群运行无所事事,因为运行yarn应用程序主机的执行程序完全占用该单个CORE节点。

© www.soinside.com 2019 - 2024. All rights reserved.