Impala查询以获取下一个日期

Question

我有2个Impala表。

第一表T1（还有其他列，但我只对日期和日期类型感兴趣，如工作日）：

date       day_type
04/01/2020 Weekday
04/02/2020 Weekday
04/03/2020 Weekday
04/04/2020 Weekend
04/05/2020 Weekend
04/06/2020 Weekday

第二表T2：

process date       status
A       04/01/2020 finished
A       04/02/2020 finished
A       04/03/2020 run_again

使用Impala查询，我必须从第二个表T2获取最大日期并获取其状态。根据上表，04/03是最大日期。如果状态在04/03完成，则我的查询应返回T1的下一个可用工作日日期，即04/06/2020。但是，如果状态为run_again，则查询应返回相同的日期。在上表中，04/03具有run_again，当我的查询运行时，输出应为04/03/2020，而不是04/06/2020。

我到目前为止尝试过的：我从第二个表运行了一个子查询，并获得了最大日期及其状态。我试图在主查询中运行一个案例，并在Case语句中将T1设置为子选择，但它不起作用。

是否有可能通过Impala查询来实现？

Answer 1

一种方法是从表T1中创建CTE，而不是相关子查询。类似于：

WITH T3 as (
  select t.date date, min(x.date) next_workday
  from T1 t join T1 x
  on t.date < x.date
  where x.day_type = 'Weekday'
  group by t.date
)
select T2.process, T2.date run_date, T2.status,
  case when T2.status = 'finished' then T3.next_workday
  else T3.date
  end next_run_date
from T2 join T3
on T2.date = T3.date
order by T2.process, T2.date;
+---------+------------+-----------+---------------+
| process | run_date   | status    | next_run_date |
+---------+------------+-----------+---------------+
| A       | 2020-04-01 | finished  | 2020-04-02    |
| A       | 2020-04-02 | finished  | 2020-04-03    |
| A       | 2020-04-03 | run again | 2020-04-03    |
+---------+------------+-----------+---------------+

然后您可以从结果中选择最大而不是排序。

Impala查询以获取下一个日期

问题描述投票：1回答：1

1个回答

最新问题

Impala查询以获取下一个日期

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1