确定单节点集群上Hadoop Conf设置的通用方法

问题描述 投票:1回答:1

我想知道如何最好地确定适当数量的地图并减少任务,JVM堆的相应最大大小?对于Hadoop的新手,这些是在mapred-site.xml文件。是否有基于(虚拟)内核和RAM数量的通用公式?

在您的回复中,请考虑在工作之前/期间创建的各种其他Hadoop流程。处理及其对RAM使用的影响(请参阅:https://forums.aws.amazon.com/thread.jspa?threadID=49024

从单台计算机集群转换到两台计算机集群时,您如何回答更改?

configuration hadoop configuration-files task configuration-management
1个回答
0
投票

时间已过去,没有人试图提出答案。因此,我将提出一些想法,希望其他想法指出存在的缺陷。

[配置Hadoop最重要的事情是不允许消耗太多资源;作业将失败,并且异常并不总是有助于快速确定问题所在。特别是内存资源将立即导致崩溃,并且正如该问题所指出的那样,JVM可能会尝试请求不必要的内存量。

我们必须考虑除map和reduce之外的其他过程(例如map和reduce之间发生的排序)。不幸的是,没有人提出关于同时可以存在多少个进程的建议。

所以这是我的建议。如果映射器的数量是M,而缩减器的数量是R,并且盒子上的总虚拟RAM是G。我目前正在为每个进程分配G /(2 * M + R)个RAM。因数2假设有一个额外的流程对每个地图流程的输出进行排序或执行其他支持工作。最后,我确保2 * M + R

到目前为止,我还没有采用这种方法来解决问题。

© www.soinside.com 2019 - 2024. All rights reserved.