从 python 到 BigQuery 增量加载数据的最佳实践是什么?

问题描述 投票:0回答:0

我想使用 BigQuery API 从 python 增量地将数据写入 Big query 中的现有表, 如果目标表中已经存在一条记录,则跳过它,否则写入它。例子:

插入前的目标表:

专栏 A列 B列 C列 D列 哈希列
1 x x y y dhfad4234r0h8RH
2 x y y x hgruztk35486guj
3 x x y y dhfad4234r0h8RH
4 x y y x hgruztk35486guj

我要写的数据:

专栏 A列 B列 C列 D列 哈希列
1 x x y y dhfad4234r0h8RH
2 x y n kuh54kh34gk234u

加载后的目标表:

专栏 A列 B列 C列 D列 哈希列
1 x x y y dhfad4234r0h8RH
2 x y y x hgruztk35486guj
3 x x y y dhfad4234r0h8RH
4 x y y x hgruztk35486guj
5 x y n kuh54kh34gk234u

源表和目标表的比对需要用hash列做优化。 在处理大表时,这种情况的最佳做法是什么?

(请不要回答问题,因为它已经被很好地描述了。谢谢)

我的假设是从目标表中查询哈希列,比较和过滤源数据帧并写入目标,但是,如果在性能方面可能的话,我正在寻找更好的解决方案。

python database google-bigquery bigdata
© www.soinside.com 2019 - 2024. All rights reserved.