如何计算映射器/缩减器的数量,以最大化在亚马逊云上运行的mahout RecommenderJob的性能?

问题描述 投票:1回答:1

根据Amazon Elastic MapReduce上使用的/可用的实例,计算要使用的正确数量的hadoop映射器和化简器的最佳方法是什么? (使用mahout-core-0.7发行版的RecommenderJob)

amazon-web-services hadoop mahout reducers mapper
1个回答
1
投票

通用Hadoop答案适用:

  • 让Hadoop选择映射器的数量
  • 将reducer的数量设置为等于集群中的reduce插槽的数量

对于EMR,请查询正在使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html

然后乘以您正在使用的工人数。这是一个非常理想的减速器数量-甚至是减速器的一小部分。

除非您有特定的理由认为这些不是最佳选择,否则我会继续这样做。

PS别忘了为您的工作人员使用竞价型实例以节省金钱和/或部署更多的工作人员。

Ad break:如果您对Mahout和建议感兴趣并在EMR上运行,则可能应该查看Myrrix。我是创始人,也是您现在正在运行的某些Mahout代码的作者。这是基于Hadoop的“下一代”推荐产品,除其他外,该产品已经针对EMR进行了优化。

© www.soinside.com 2019 - 2024. All rights reserved.