假设我有一个模型,其中A(t)
和B(t)
由以下等式控制:
A(t) = {
WHEN B(t-1) < 10 : B(t-1)
WHEN B(t-1) >=10 : B(t-1) / 6
}
B(t) = A(t) * 2
提供下表作为输入。
SELECT * FROM model ORDER BY t;
| t | A | B |
|---|------|------|
| 0 | 0 | 9 |
| 1 | null | null |
| 2 | null | null |
| 3 | null | null |
| 4 | null | null |
即我们知道A(t=0)
和B(t=0)
的价值观。
对于每一行,我们想要使用上面的等式计算A
和B
的值。
决赛桌应该是:
| t | A | B |
|---|---|----|
| 0 | 0 | 9 |
| 1 | 9 | 18 |
| 2 | 3 | 6 |
| 3 | 6 | 12 |
| 4 | 2 | 4 |
我们尝试过使用滞后,但由于模型具有类似递归的特性,我们最终只能在A
获得B
和(t=1)
CREATE TEMPORARY FUNCTION A_fn(b_prev FLOAT64) AS (
CASE
WHEN b_prev < 10 THEN b_prev
ELSE b_prev / 6.0
END
);
SELECT
t,
CASE WHEN t = 0 THEN A ELSE A_fn(LAG(B) OVER (ORDER BY t)) END AS A,
CASE WHEN t = 0 THEN B ELSE A_fn(LAG(B) OVER (ORDER BY t)) * 2 END AS B
FROM model
ORDER BY t;
生产:
| t | A | B |
|---|------|------|
| 0 | 0 | 9 |
| 1 | 9 | 18 |
| 2 | null | null |
| 3 | null | null |
| 4 | null | null |
每行取决于它上面的行。似乎应该可以一次计算一行,同时迭代行?或者BigQuery不支持这种类型的窗口?
如果不可能,你推荐什么?
第一轮 - 起点
下面是BigQuery标准SQL,适用于(最适合我)最多3M行
#standardSQL
CREATE TEMP FUNCTION x(v FLOAT64, t INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>>
LANGUAGE js AS """
var i, result = [];
for (i = 1; i <= t; i++) {
if (v < 10) {v = 2 * v}
else {v = v / 3};
result.push({t:i, v});
};
return result
""";
SELECT 0 AS t, 0 AS A, 9 AS B UNION ALL
SELECT line.t, line.v / 2, line.v FROM UNNEST(x(9, 3000000)) line
超过3M行会产生Resources exceeded during query execution: UDF out of memory.
为了克服这个问题 - 我认为你应该在客户端上实现它 - 所以不应用JS UDF限制。我认为这是合理的“解决方法”,因为无论如何看起来你在BQ中没有真正的数据,只有一个起始值(本例中为9)。但即使你在表中还有其他有价值的列 - 然后你可以将生成的结果JOIN返回到表的ON值 - 所以应该是好的!
第二轮 - 可能是数十亿...... - 所以让我们来处理规模,并行化
下面是一个避免JS UDF资源和/或内存错误的小技巧 所以,我能够一次性运行2B行!
#standardSQL
CREATE TEMP FUNCTION anchor(seed FLOAT64, len INT64, batch INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>> LANGUAGE js AS """
var i, result = [], v = seed;
for (i = 0; i <= len; i++) {
if (v < 10) {v = 2 * v} else {v = v / 3};
if (i % batch == 0) {result.push({t:i + 1, v})};
}; return result
""";
CREATE TEMP FUNCTION x(value FLOAT64, start INT64, len INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>>
LANGUAGE js AS """
var i, result = []; result.push({t:0, v:value});
for (i = 1; i < len; i++) {
if (value < 10) {value = 2 * value} else {value = value / 3};
result.push({t:i, v:value});
}; return result
""";
CREATE OR REPLACE TABLE `project.dataset.result` AS
WITH settings AS (SELECT 9 init, 2000000000 len, 1000 batch),
anchors AS (SELECT line.* FROM settings, UNNEST(anchor(init, len, batch)) line)
SELECT 0 AS t, 0 AS A, init AS B FROM settings UNION ALL
SELECT a.t + line.t, line.v / 2, line.v
FROM settings, anchors a, UNNEST(x(v, t, batch)) line
在上面的查询中 - 您在下面的行中“控制”初始值
WITH settings AS (SELECT 9 init, 2000000000 len, 1000 batch),
在上面的例子中,9
是初始值,2,000,000,000是要计算的行数,1000是要处理的批处理(这是保持BQ引擎不会抛出资源和/或内存错误的重要一点 - 你不能让它太大或者太小 - 我觉得我对它需要的东西有所了解 - 但还不足以试图制定它
一些统计数据(设置 - 执行时间):
1M: SELECT 9 init, 1000000 len, 1000 batch - 0 min 9 sec
10M: SELECT 9 init, 10000000 len, 1000 batch - 0 min 50 sec
100M: SELECT 9 init, 100000000 len, 600 batch - 3 min 4 sec
100M: SELECT 9 init, 100000000 len, 40 batch - 2 min 56 sec
1B: SELECT 9 init, 1000000000 len, 10000 batch - 29 min 39 sec
1B: SELECT 9 init, 1000000000 len, 1000 batch - 27 min 50 sec
2B: SELECT 9 init, 2000000000 len, 1000 batch - 48 min 27 sec
第3轮 - 一些想法和评论
显然,正如我在上面的#1中所提到的 - 这种类型的计算更适合在您选择的客户端上实现 - 所以我很难判断出上面的实际价值 - 但我真的很开心玩它!实际上,我脑子里还有很多很酷的想法,并且实现和玩过它们 - 但是上面(在#2中)是最实用/可扩展的一个
注意:上述解决方案中最有趣的部分是anchors
表。生成它并且允许以批量大小间隔设置锚点非常便宜 - 所以有了这个你可以例如计算行的值= 2,000,035或1,123,456,789(例如)而不实际处理所有先前的行 - 这将花费几分之一秒。或者,您可以通过使用相应的锚点等启动多个线程/计算来并行化所有行的计算。相当多的机会。
最后,它实际上取决于您的具体用例,哪种方式更进一步 - 所以我将它留给您