在关于Java for Hadoop的教科书中,我读到:
MapReduce中的Map任务通常一次只能在一个块上运行,所以如果你的任务太少(集群中的节点少于),你的作业运行速度会慢于其他情况。
这句话在关于HDFS块大小的段落中,但我不明白它的含义。你能帮助我吗 ?
映射器的数量取决于输入spilit的数量,默认情况下输入spilit的数量将是mapreduce中块大小的数量。因此,在这种情况下,假设您的文件大小为128 MB,那么默认情况下,一个映射器将用于计算,但您可以通过更改mapred-site.xml中的某些属性来增加映射器的数量,现在增加数量后映射器,相同的128 MB文件将由更多的映射器计算,执行将比以前的情况更快。