EMR中用于长期运行的作业和多个小型运行的作业的资源优化/利用

问题描述 投票:1回答:1

我的用例:

  • 我们有一个运行时间很长的Spark工作。在此之后称为LRJ。该作业每周运行一次。
  • 我们有多个随时可以进行的小型运行作业。这些作业比长期运行的作业具有更高的优先级。

为了解决这个问题,我们如下创建了YARN队列:

已创建用于资源管理的YARN队列。为长时间运行的作业配置了Q1队列,为小型运行的作业配置了Q2队列。

Config:
     Q1 : capacity = 50% and it can go upto 100%
          capacity on CORE nodes = 50% and maximum 100%   
     Q2 : capacity = 50% and it can go upto 100%
          capacity on CORE nodes = 50% and maximum 100% 

我们面临的问题:

[LRJ进行中时,它将获取所有资源。 LRJ已获取所有资源时,正在等待多个小型正在运行的作业。一旦集群扩大规模并且有新资源可用,小型的正在运行的作业就会获得资源。但是,由于集群需要花费一些时间来进行扩展活动,因此在为这些作业分配资源时会产生很大的延迟。

更新1:我们已经尝试按照maximum-capacity使用YARN docs配置,但由于我在其他问题here]中发布的配置不起作用

我的用例:我们的Spark任务长期运行。此后称为LRJ。该作业每周运行一次。我们有多个随时可以进行的小型运行作业。这些作业的优先级高于...

apache-spark hadoop yarn amazon-emr long-running-processes
1个回答
0
投票

进一步寻找涉及到一些无名英雄的讨论,我们根据用例决定对YARN队列应用抢占

© www.soinside.com 2019 - 2024. All rights reserved.