Dataproc 的 BigQuery 扫描成本

我正在为我的业务实施数据转换，其中涉及从一个大型表（~20 TB）和其他几个较小的表（<100 MB) located in BigQuery. I might fetch the entire table or by the default date partition as the use case may be. There are a series of transformations like Joining, Filtering, Aggregation, Union that follows. The performance in Dataproc is pretty impressive as it is comparable and in some cases faster than BigQuery. I have used 6 worker nodes of type n2-standard-16 and Boot disk of 200 GB each.

我的问题是 - 使用 Spark BigQuery 连接器从 BigQuery 获取 Dataproc 中的数据是否会导致槽使用或对 BigQuery 端产生任何类型的成本影响？我特别关心 PySpark 工作中的大表。

我尝试查找提及 Dataproc 中的 BigQuery 使用成本的在线文档，但找不到任何文档。任何参考 URL 或“Dataproc 中的 BigQuery 扫描成本”的详细解释将不胜感激。

0
投票

如果您使用 Spark BigQuery 连接器，则此doc中描述了定价注意事项。

我的理解是，对于从或/和写入 BigQuery 表的 Dataproc 作业：

（推荐）在基于 BigQuery Storage API 的直接流模式中，用户只需为 API 调用付费，请参阅此doc中的定价。
（旧版）在基于临时GCS文件的非直接流模式下，用户只需为临时GCS存储付费，请参阅此doc中的定价。

Dataproc 在上述 BigQuery 或 GCS 成本之外不收取额外费用。

顺便说一句，我注意到的另一件事是工作启动磁盘大小 200GB 太小，这会减慢工作速度，并且由于工作持续时间较长，用户会花费更多的 CPU 成本。标准 PD 的建议大小至少为 1TB，或使用本地 SSD，请参阅此 doc。

问题描述投票：0回答：1

1个回答

最新问题

Dataproc 的 BigQuery 扫描成本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1