我想使用 BigQuery API 从 python 增量地将数据写入 Big query 中的现有表, 如果目标表中已经存在一条记录,则跳过它,否则写入它。例子:
插入前的目标表:
专栏 | A列 | B列 | C列 | D列 | 哈希列 |
---|---|---|---|---|---|
1 | x | x | y | y | dhfad4234r0h8RH |
2 | x | y | y | x | hgruztk35486guj |
3 | x | x | y | y | dhfad4234r0h8RH |
4 | x | y | y | x | hgruztk35486guj |
我要写的数据:
专栏 | A列 | B列 | C列 | D列 | 哈希列 |
---|---|---|---|---|---|
1 | x | x | y | y | dhfad4234r0h8RH |
2 | x | y | 米 | n | kuh54kh34gk234u |
加载后的目标表:
专栏 | A列 | B列 | C列 | D列 | 哈希列 |
---|---|---|---|---|---|
1 | x | x | y | y | dhfad4234r0h8RH |
2 | x | y | y | x | hgruztk35486guj |
3 | x | x | y | y | dhfad4234r0h8RH |
4 | x | y | y | x | hgruztk35486guj |
5 | x | y | 米 | n | kuh54kh34gk234u |
源表和目标表的比对需要用hash列做优化。 在处理大表时,这种情况的最佳做法是什么?
(请不要回答问题,因为它已经被很好地描述了。谢谢)
我的假设是从目标表中查询哈希列,比较和过滤源数据帧并写入目标,但是,如果在性能方面可能的话,我正在寻找更好的解决方案。