Q1。我有一个指向S3位置的配置单元表“比率”,该位置仅包含两个大小为677MB的文件:当我计算记录总数时,它只是启动2个映射器。为什么会这样呢?如何增加呢?
Q2。我还有另一个配置单元表'demo_tb1'指向S3位置,其中包含4000个文件,大小仅为2.7 KB:当我计算记录总数时,它只是启动1个映射器。而且执行花费了太多时间。
如何增加映射器的数量?
有一个名为mapreduce.input.fileinputformat.split.maxsize
的配置。您需要将此配置的值减小一些。
我怎么知道这个配置的当前值是什么?
仅运行此命令,而无需在配置单元编辑器中指定这样的值。
SET mapreduce.input.fileinputformat.split.maxsize;
这将以字节为单位给出结果。
我如何更改此配置的值?
例如,运行此命令将其更改为16MB。
set mapreduce.input.fileinputformat.split.maxsize=16777216;
注:请根据所需的并行度(映射器的数量)更改值。
我希望这会有所帮助。