如何将 CSV 文件的文件夹上传到 BigQuery?

问题描述 投票:0回答:1

我有一个包含 225,000 个 CSV 文件的文件夹,每个文件有 2-4k 行左右。文件夹总大小约为 6GB,有没有办法将整个文件夹的文件上传到 BigQuery 到每个 csv 文件的单独表中?看来我应该使用云存储,但是它能容纳那么大的文件夹吗?使用它的过程是什么?

database google-bigquery
1个回答
0
投票

我想象每个 CSV 文件都有一个唯一的名称,并且有一些映射函数/算法可用于将文件名映射到相应的 BigQuery 表名称。现在我们要考虑如何将文件映射到表。我看到两种可能性...第一种是创建一个新的 BigQuery 表并将 CSV 数据加载到表中。我假设每个文件都有相同的架构。您可以将文件加载到 GCS 存储桶中,并编写一个脚本,为存储桶中的每个文件创建一个表并执行加载。您每天只能加载 100,000 次……因此您可能需要在几天内执行加载。

另一种想法是使用 BigQuery 外部表,并再次创建一个表定义,但使其指向 GCS 上的 CSV 来存储数据。

您没有提到数据中是否有任何内容将数据分区回各自的文件。例如,如果文件表示日期/时间范围,并且数据中的字段也包含日期/时间,则您可以创建一个包含所有文件中的所有数据的表,然后在单个表上创建视图.

从 BigQuery 和 GCS 的角度来看,6GB 很小……我们不应该担心数据的大小。我更好奇文件的数量。这些文件是什么?为什么这么多?除此之外,还会有多少新文件到达?您是否需要“重新加载”文件(它们会改变吗?)

© www.soinside.com 2019 - 2024. All rights reserved.