我是初学程序员和hadoop学习者。
我在启动maptask和hdfs之前使用5台PC(具有双核cpu和ram 2G)测试hadoop完全分发模式,我知道我必须配置文件(Ip上的etc / hosts,hostname和hadoop文件夹/ conf / masters,奴隶文件)所以我完成了配置该文件。然后,
我有一个问题
是否可以在运行应用程序(如WordCount或Pi Estimator)时增加(或添加)map(而不是mapTask或node!)?
例如,我正在使用10个地图运行Pi Estimator应用程序,迭代100,000,000。
在运行应用程序的路上,我觉得它很慢,所以我想增加地图,即使hadoop状态正在运行。可能吗?如果这是真的,请告诉我的方式。
或者在运行应用程序之前,我是否可以配置配置文件(如hdfs-site.xml或mapred-site.xml)以在运行应用程序时动态增加映射?
堆栈溢出社区的hadoop主用户,请告诉我有关真相的详细信息。
你可以设置mapred.map.tasks并给作业一个提示你想要多少个地图,但它只有一个提示和hadoop不一定会遵守它。您可以通过设置mapred.tasktracker.reduce.tasks.maximum来设置一次运行的最大并发映射任务数,