Hive联接查询优化

问题描述 投票:1回答:2
Table A
---------
col1, col2,Adate,qty

Table B
-------
col2,cost,Bdate

表大小如下:

A:一百万B:700k

考虑此查询:

SELECT 
  A.col1,
  A.col2,
  B.Bdate bdate,
  SUM(qty)*COLLECT_LIST(cost)[0] price 
FROM A 
JOIN B 
ON (A.col2 = B.col2 AND A.Adate <= B.Bdate) 
GROUP BY 
  A.col1,
  A.col2,
  B.bdate;

上面的配置单元查询在4个从属(8GB内存,100 GB磁盘)和1个主服务器(16 GB内存,100 GB磁盘)的群集上花费了3个多小时。

此查询可以优化吗?如果是,那么在哪里可以进行优化?

表A --------- col1,col2,Adate,qty表B ------- col2,cost,Bdate表的大小如下:A:100万B:700k考虑此查询:SELECT A.col1,A.col2,B.Bdate bdate,SUM(...

optimization hive bigdata hiveql
2个回答
0
投票

我将尝试为您提供一些建议,以提高Hive中的查询性能。


0
投票

使用Tez和mapjoin。

© www.soinside.com 2019 - 2024. All rights reserved.