从 python 到 BigQuery 增量加载数据的最佳实践是什么？

问题描述投票：0回答：0

我想使用 BigQuery API 从 python 增量地将数据写入 Big query 中的现有表，如果目标表中已经存在一条记录，则跳过它，否则写入它。例子：

插入前的目标表：

我要写的数据：

专栏	A列	B列	C列	D列	哈希列
1	x	x	y	y	dhfad4234r0h8RH
2	x	y	米	n	kuh54kh34gk234u

加载后的目标表：

源表和目标表的比对需要用hash列做优化。在处理大表时，这种情况的最佳做法是什么？

（请不要回答问题，因为它已经被很好地描述了。谢谢）

我的假设是从目标表中查询哈希列，比较和过滤源数据帧并写入目标，但是，如果在性能方面可能的话，我正在寻找更好的解决方案。

python

database

google-bigquery

bigdata