自定义滚动计算

问题描述 投票:0回答:1

假设我有一个模型,其中A(t)B(t)由以下等式控制:

A(t) = {
  WHEN B(t-1) < 10 : B(t-1)
  WHEN B(t-1) >=10 : B(t-1) / 6
}

B(t) = A(t) * 2

提供下表作为输入。

SELECT * FROM model ORDER BY t;
| t | A    | B    |
|---|------|------|
| 0 | 0    | 9    |
| 1 | null | null |
| 2 | null | null |
| 3 | null | null |
| 4 | null | null |

即我们知道A(t=0)B(t=0)的价值观。

对于每一行,我们想要使用上面的等式计算AB的值。

决赛桌应该是:

| t | A | B  |
|---|---|----|
| 0 | 0 | 9  |
| 1 | 9 | 18 |
| 2 | 3 | 6  |
| 3 | 6 | 12 |
| 4 | 2 | 4  |

我们尝试过使用滞后,但由于模型具有类似递归的特性,我们最终只能在A获得B(t=1)

CREATE TEMPORARY FUNCTION A_fn(b_prev FLOAT64) AS (
  CASE
    WHEN b_prev < 10 THEN b_prev
    ELSE b_prev / 6.0
  END
);

SELECT
t,
CASE WHEN t = 0 THEN A ELSE A_fn(LAG(B) OVER (ORDER BY t)) END AS A,
CASE WHEN t = 0 THEN B ELSE A_fn(LAG(B) OVER (ORDER BY t)) * 2 END AS B
FROM model
ORDER BY t;

生产:

| t | A    | B    |
|---|------|------|
| 0 | 0    | 9    |
| 1 | 9    | 18   |
| 2 | null | null |
| 3 | null | null |
| 4 | null | null |

每行取决于它上面的行。似乎应该可以一次计算一行,同时迭代行?或者BigQuery不支持这种类型的窗口?

如果不可能,你推荐什么?

google-bigquery
1个回答
1
投票

第一轮 - 起点

下面是BigQuery标准SQL,适用于(最适合我)最多3M行

#standardSQL
CREATE TEMP FUNCTION x(v FLOAT64, t INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>>
LANGUAGE js AS """
  var i, result = [];
  for (i = 1; i <= t; i++) { 
    if (v < 10) {v = 2 * v} 
    else {v = v / 3};
    result.push({t:i, v});
  };
  return result
""";
SELECT 0 AS t, 0 AS A, 9 AS B UNION ALL 
SELECT line.t, line.v / 2, line.v FROM UNNEST(x(9, 3000000)) line     

enter image description here

超过3M行会产生Resources exceeded during query execution: UDF out of memory. 为了克服这个问题 - 我认为你应该在客户端上实现它 - 所以不应用JS UDF限制。我认为这是合理的“解决方法”,因为无论如何看起来你在BQ中没有真正的数据,只有一个起始值(本例中为9)。但即使你在表中还有其他有价值的列 - 然后你可以将生成的结果JOIN返回到表的ON值 - 所以应该是好的!

第二轮 - 可能是数十亿...... - 所以让我们来处理规模,并行化

下面是一个避免JS UDF资源和/或内存错误的小技巧 所以,我能够一次性运行2B行!

#standardSQL
CREATE TEMP FUNCTION anchor(seed FLOAT64, len INT64, batch INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>> LANGUAGE js AS """
  var i, result = [], v = seed;
  for (i = 0; i <= len; i++) { 
    if (v < 10) {v = 2 * v} else {v = v / 3};
    if (i % batch == 0) {result.push({t:i + 1, v})};
  }; return result
""";
CREATE TEMP FUNCTION x(value FLOAT64, start INT64, len INT64)
RETURNS ARRAY<STRUCT<t INT64, v FLOAT64>>
LANGUAGE js AS """
  var i, result = []; result.push({t:0, v:value});
  for (i = 1; i < len; i++) { 
    if (value < 10) {value = 2 * value} else {value = value / 3};
    result.push({t:i, v:value});
  }; return result
""";
CREATE OR REPLACE TABLE `project.dataset.result` AS
WITH settings AS (SELECT 9 init, 2000000000 len, 1000 batch), 
  anchors  AS (SELECT line.* FROM settings, UNNEST(anchor(init, len, batch)) line)
SELECT 0 AS t, 0 AS A, init AS B FROM settings UNION ALL
SELECT a.t + line.t, line.v / 2, line.v
FROM settings, anchors a, UNNEST(x(v, t, batch)) line

在上面的查询中 - 您在下面的行中“控制”初始值

WITH settings AS (SELECT 9 init, 2000000000 len, 1000 batch), 

在上面的例子中,9是初始值,2,000,000,000是要计算的行数,1000是要处理的批处理(这是保持BQ引擎不会抛出资源和/或内存错误的重要一点 - 你不能让它太大或者太小 - 我觉得我对它需要的东西有所了解 - 但还不足以试图制定它

一些统计数据(设置 - 执行时间):

  1M: SELECT 9 init,    1000000 len,  1000 batch  -  0 min  9 sec   
 10M: SELECT 9 init,   10000000 len,  1000 batch  -  0 min 50 sec
100M: SELECT 9 init,  100000000 len,   600 batch  -  3 min  4 sec
100M: SELECT 9 init,  100000000 len,    40 batch  -  2 min 56 sec   
  1B: SELECT 9 init, 1000000000 len, 10000 batch  - 29 min 39 sec
  1B: SELECT 9 init, 1000000000 len,  1000 batch  - 27 min 50 sec
  2B: SELECT 9 init, 2000000000 len,  1000 batch  - 48 min 27 sec

第3轮 - 一些想法和评论

显然,正如我在上面的#1中所提到的 - 这种类型的计算更适合在您选择的客户端上实现 - 所以我很难判断出上面的实际价值 - 但我真的很开心玩它!实际上,我脑子里还有很多很酷的想法,并且实现和玩过它们 - 但是上面(在#2中)是最实用/可扩展的一个

注意:上述解决方案中最有趣的部分是anchors表。生成它并且允许以批量大小间隔设置锚点非常便宜 - 所以有了这个你可以例如计算行的值= 2,000,035或1,123,456,789(例如)而不实际处理所有先前的行 - 这将花费几分之一秒。或者,您可以通过使用相应的锚点等启动多个线程/计算来并行化所有行的计算。相当多的机会。

最后,它实际上取决于您的具体用例,哪种方式更进一步 - 所以我将它留给您

相关问题
热门问答
最新问题