BigQuery提取到具有多个通配符URI的GS会产生EMPTY斑点

问题描述 投票:0回答:1

[我正在尝试通过在Python中使用google.cloud.storage.Client方法extract_table从BigQuery中提取表,方法是在destination_uri中提供多个通配符uris数组作为参数。

destination_uri=['gs://{}/{}/{}-*'.format(bucket_name, prefix, i) for i in range(nb_node)]

[预期的行为是BigQuery将我的表平均分成多个blob。

压缩后的文件大小为242 MB

真正发生的是,如果我给了7个URIS,则使1个文件的242 MB和6个空的其他文件具有20B。

其他配置参数是:destination_format =“ NEWLINE_DELIMITED_JSON”和compression =“ GZIP”。

关于发生这种情况的任何线索?

非常感谢。

python google-cloud-platform google-bigquery cloud distributed-computing
1个回答
0
投票

没有分发“均匀”的概念。

导出文件可能确实是零星的,一个可能是几GB,另一些则是几MB。

© www.soinside.com 2019 - 2024. All rights reserved.