在 BigQuery 中,是否可以创建一个物化视图,其中包含基表中每个组的最新行。
例如
CREATE TABLE basetable (
group_id INT64, timestamp TIMESTAMP, value FLOAT64
);
INSERT INTO basetable (group_id, timestamp, value) VALUES
(1, '2020-01-01', 0.1),
(1, '2020-01-02', 0.2),
(2, '2020-01-02', 0.1),
(2, '2020-01-01', 0.2);
Base table
+----------+--------------+-------+
| group_id | timestamp | value |
+----------+--------------+-------+
| 1 | '2020-01-01' | 0.1 |
| 1 | '2020-01-02' | 0.2 |
| 2 | '2020-01-02' | 0.1 |
| 2 | '2020-01-01 | 0.2 |
+----------+--------------+-------+
我希望物化视图如下所示
Materialized view
+----------+--------------+-------+
| group_id | timestamp | value |
+----------+--------------+-------+
| 1 | '2020-01-02' | 0.2 |
| 2 | '2020-01-02' | 0.1 |
+----------+--------------+-------+
BigQuery 物化视图不支持分析函数或联接。 还有其他方法可以创建这样的视图吗?
你最多可以这样做,请注意,结果是一个包含一项的数组
CREATE MATERIALIZED VIEW name as
SELECT group_id,
max(t.timestamp) as timestamp,
ARRAY_AGG(t.value IGNORE NULLS ORDER BY t.timestamp DESC LIMIT 1) as value
FROM table t
group by group_id
那么你也需要一个视图
create view viewname as
SELECT group_id,timestamp
cast(value [safe_offset(0)] as string) as value
FROM materialized_view
您可以使用具有存在逻辑的单个查询来确保选择每个
group_id
的最新记录:
SELECT group_id, timestamp, value
FROM yourTable t1
WHERE NOT EXISTS (SELECT 1 FROM yourTable t2
WHERE t2.group_id = t1.group_id AND t2.timestamp > t1.timestamp);
我想不出任何方法可以在不使用分析函数或某种子查询的情况下获得您想要的结果集。以上可能是这里最精简的选项,无需使用分析函数。
我试图解决同样的问题,我发现现在可以使用新的 MAX_BY 聚合通过单个查询来完成此操作。 2023 年 8 月 8 日添加了对物化视图的支持。
最终查询将是:
CREATE MATERIALIZED VIEW test as
SELECT
group_id,
MAX(timestamp) as timestamp,
MAX_BY(value, timestamp) as value,
FROM table
GROUP BY 1