bigquery 物化视图逻辑大小和处理大小存在巨大差异

Question

我对 bigquery 比较陌生。我对物化视图的理解是，它在提供的每个刷新间隔上从源进行预先计算，并在查询时节省时间。我假设进程大小将基于逻辑字节大小。

在一个项目中，我看到主表显示 ~10GB 逻辑字节。在启用自动刷新（每 6 小时）的情况下创建的物化视图显示约 9GB 的逻辑字节。当我尝试使用 select * from

dataset.materialized_view_table

查询物化视图时，它显示“此查询在运行时将处理 ~18 GB。”

当源视图和物化视图分别约为 10GB 和 9GB 时，如何实现 18GB 的处理？用于构建物化视图的实际查询也显示“此查询在运行时将处理〜10 GB”。

如果我尝试第二次运行物化视图，它会显示运行时将处理 18GB 吗？我不被允许运行它。但我很好奇。

请帮我解释一下。

Answer 1

查询成本的估计发生在查询实际运行之前，在此期间，只有引用的字段是已知的，并且计算它们的（按列）总和并向用户显示。

由于事先不知道所请求作业的数据分布，因此估计本质上是数据的上限，因此查询必须扫描。

对表进行分区和集群可以帮助减少查询处理的数据量，从而减少扫描的字节数。

它还可能取决于您根据此文档使用的定价模型类型，例如

on-demand pricing

或

capacity based pricing

。

为了详细调查您的问题，如果您有支持计划，我建议您创建一个新的 GCP 支持案例。否则，您可以在问题跟踪器上打开一个新问题来描述您的问题。