我注意到,当涉及到MR时,即使对于简单的查询,例如:
从条件_a和条件_b限制为10的表中选择*;
Hive将扫描所有数据(确定),但仅在所有MR作业完成后才返回,即使我们只需要10个结果。
是否有办法告诉配置单元只返回前10行,然后跳过作业结果?
注意,我是在涉及MR作业的时间,而不是在没有创建实际MR作业的简单情况下。
谢谢!
您可以尝试
hive.mapred.mode = nonstrict
和
hive.map.aggr = false
除此之外,您还可以尝试排序依据和分发依据。