Table A
---------
col1, col2,Adate,qty
Table B
-------
col2,cost,Bdate
表大小如下:
A:一百万B:700k
考虑此查询:
SELECT
A.col1,
A.col2,
B.Bdate bdate,
SUM(qty)*COLLECT_LIST(cost)[0] price
FROM A
JOIN B
ON (A.col2 = B.col2 AND A.Adate <= B.Bdate)
GROUP BY
A.col1,
A.col2,
B.bdate;
上面的配置单元查询在4个从属(8GB内存,100 GB磁盘)和1个主服务器(16 GB内存,100 GB磁盘)的群集上花费了3个多小时。
此查询可以优化吗?如果是,那么在哪里可以进行优化?
表A --------- col1,col2,Adate,qty表B ------- col2,cost,Bdate表的大小如下:A:100万B:700k考虑此查询:SELECT A.col1,A.col2,B.Bdate bdate,SUM(...
我将尝试为您提供一些建议,以提高Hive中的查询性能。
使用Tez和mapjoin。