根据Amazon Elastic MapReduce上使用的/可用的实例,计算要使用的正确数量的hadoop映射器和化简器的最佳方法是什么? (使用mahout-core-0.7发行版的RecommenderJob)
通用Hadoop答案适用:
对于EMR,请查询正在使用的实例类型上默认运行的reducer数量:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html
然后乘以您正在使用的工人数。这是一个非常理想的减速器数量-甚至是减速器的一小部分。
除非您有特定的理由认为这些不是最佳选择,否则我会继续这样做。
PS别忘了为您的工作人员使用竞价型实例以节省金钱和/或部署更多的工作人员。
Ad break:如果您对Mahout和建议感兴趣并在EMR上运行,则可能应该查看Myrrix。我是创始人,也是您现在正在运行的某些Mahout代码的作者。这是基于Hadoop的“下一代”推荐产品,除其他外,该产品已经针对EMR进行了优化。