Dataproc 的 BigQuery 扫描成本

问题描述 投票:0回答:1

我正在为我的业务实施数据转换,其中涉及从一个大型表(~20 TB)和其他几个较小的表(<100 MB) located in BigQuery. I might fetch the entire table or by the default date partition as the use case may be. There are a series of transformations like Joining, Filtering, Aggregation, Union that follows. The performance in Dataproc is pretty impressive as it is comparable and in some cases faster than BigQuery. I have used 6 worker nodes of type n2-standard-16 and Boot disk of 200 GB each.

我的问题是 - 使用 Spark BigQuery 连接器从 BigQuery 获取 Dataproc 中的数据是否会导致槽使用或对 BigQuery 端产生任何类型的成本影响?我特别关心 PySpark 工作中的大表。

我尝试查找提及 Dataproc 中的 BigQuery 使用成本的在线文档,但找不到任何文档。任何参考 URL 或“Dataproc 中的 BigQuery 扫描成本”的详细解释将不胜感激。

google-cloud-platform pyspark google-bigquery google-cloud-dataproc billing
1个回答
0
投票

如果您使用 Spark BigQuery 连接器,则此doc中描述了定价注意事项。

我的理解是,对于从或/和写入 BigQuery 表的 Dataproc 作业:

  1. (推荐)在基于 BigQuery Storage API 的直接流模式中,用户只需为 API 调用付费,请参阅此doc中的定价。

  2. (旧版)在基于临时GCS文件的非直接流模式下,用户只需为临时GCS存储付费,请参阅此doc中的定价。

Dataproc 在上述 BigQuery 或 GCS 成本之外不收取额外费用。

顺便说一句,我注意到的另一件事是工作启动磁盘大小 200GB 太小,这会减慢工作速度,并且由于工作持续时间较长,用户会花费更多的 CPU 成本。标准 PD 的建议大小至少为 1TB,或使用本地 SSD,请参阅此 doc

© www.soinside.com 2019 - 2024. All rights reserved.