EMR上的Hive |映射器数量|蜂房指向S3位置

问题描述 投票:0回答:1

Q1。我有一个指向S3位置的配置单元表“比率”,该位置仅包含两个大小为677MB的文件:Rates Table当我计算记录总数时,它只是启动2个映射器。为什么会这样呢?如何增加呢?enter image description here

Q2。我还有另一个配置单元表'demo_tb1'指向S3位置,其中包含4000个文件,大小仅为2.7 KB:enter image description here当我计算记录总数时,它只是启动1个映射器。而且执行花费了太多时间。enter image description here

amazon-s3 hive amazon-emr
1个回答
0
投票
数据大小决定。如您所见,拥有4000个2.7 KB的文件,每个仅启动1个映射器,而拥有2个677 MB的文件,每个启动2个映射器。

如何增加映射器的数量?

有一个名为mapreduce.input.fileinputformat.split.maxsize的配置。您需要将此配置的值减小一些。

我怎么知道这个配置的当前值是什么?

仅运行此命令,而无需在配置单元编辑器中指定这样的值。

SET mapreduce.input.fileinputformat.split.maxsize;

这将以字节为单位给出结果。

我如何更改此配置的值?

例如,运行此命令将其更改为16MB。

set mapreduce.input.fileinputformat.split.maxsize=16777216;

注:
请根据所需的并行度(映射器的数量)更改值。

我希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.