我在蜂巢中有n个(大)数量的小型txt文件

问题描述 投票:-1回答:1

我有n个(大)数量的小尺寸txt文件,我想合并成k个(小)数量的文件

hadoop hive hue mapr
1个回答
0
投票

如果您在这些hive table上方有txt files,请使用

insert overwrite <db>.<existing_table> select * from <db>.<existing_table> order by <col_name>;

Hive支持选择并覆盖相同表,order by子句将force to run 1 reducer,这将导致在目录中仅创建一个文件。

但是,如果您的数据量很大,那么order by子句将不能很好地执行,请使用sort by (or) clustered by子句来启动1个以上的reducer。

sort by (or) clustered by
© www.soinside.com 2019 - 2024. All rights reserved.