EMR中用于长期运行的作业和多个小型运行的作业的资源优化/利用

Question

我的用例：

我们有一个运行时间很长的Spark工作。在此之后称为LRJ。该作业每周运行一次。
我们有多个随时可以进行的小型运行作业。这些作业比长期运行的作业具有更高的优先级。

为了解决这个问题，我们如下创建了YARN队列：

已创建用于资源管理的YARN队列。为长时间运行的作业配置了Q1队列，为小型运行的作业配置了Q2队列。

Config:
     Q1 : capacity = 50% and it can go upto 100%
          capacity on CORE nodes = 50% and maximum 100%   
     Q2 : capacity = 50% and it can go upto 100%
          capacity on CORE nodes = 50% and maximum 100%

我们面临的问题：

[LRJ进行中时，它将获取所有资源。 LRJ已获取所有资源时，正在等待多个小型正在运行的作业。一旦集群扩大规模并且有新资源可用，小型的正在运行的作业就会获得资源。但是，由于集群需要花费一些时间来进行扩展活动，因此在为这些作业分配资源时会产生很大的延迟。

更新1：我们已经尝试按照maximum-capacity使用YARN docs配置，但由于我在其他问题here]中发布的配置不起作用

我的用例：我们的Spark任务长期运行。此后称为LRJ。该作业每周运行一次。我们有多个随时可以进行的小型运行作业。这些作业的优先级高于...

Answer 1

进一步寻找涉及到一些无名英雄的讨论，我们根据用例决定对YARN队列应用抢占

EMR中用于长期运行的作业和多个小型运行的作业的资源优化/利用

问题描述投票：1回答：1

1个回答

最新问题

EMR中用于长期运行的作业和多个小型运行的作业的资源优化/利用

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1