Hive联接查询优化

Question

Table A
---------
col1, col2,Adate,qty

Table B
-------
col2,cost,Bdate

表大小如下：

A：一百万B：700k

考虑此查询：

SELECT 
  A.col1,
  A.col2,
  B.Bdate bdate,
  SUM(qty)*COLLECT_LIST(cost)[0] price 
FROM A 
JOIN B 
ON (A.col2 = B.col2 AND A.Adate <= B.Bdate) 
GROUP BY 
  A.col1,
  A.col2,
  B.bdate;

上面的配置单元查询在4个从属（8GB内存，100 GB磁盘）和1个主服务器（16 GB内存，100 GB磁盘）的群集上花费了3个多小时。

此查询可以优化吗？如果是，那么在哪里可以进行优化？

表A --------- col1，col2，Adate，qty表B ------- col2，cost，Bdate表的大小如下：A：100万B：700k考虑此查询：SELECT A.col1，A.col2，B.Bdate bdate，SUM（...

Answer 1

我将尝试为您提供一些建议，以提高Hive中的查询性能。

Answer 2

0
投票

使用Tez和mapjoin。

Hive联接查询优化

问题描述投票：1回答：2

2个回答

最新问题

Hive联接查询优化

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2