我有一组 CSV 文件登陆到 BLOB 存储中,我需要将它们转换为 parquet 格式为单个文件

问题描述 投票:0回答:1

如何将当前位于 Azure BLOB 存储中的多个 .csv 文件转换为 Parquet 格式,再将另一个 BLOB 转换为单个文件,我需要合并 csv 文件,因为所有文件都具有相似的结构。 我在 ADF 环境中工作

azure-data-factory
1个回答
0
投票

您可以使用复制活动来实现您的要求。

创建分隔文本和镶木地板类型的源和目标数据集,这些数据集的链接服务应分别是源和目标 blob 存储。在源数据集中,仅给出直到根容器的路径。

enter image description here

在目标数据集中,根据需要指定目标位置和目标文件名。

enter image description here

将这两个数据集提供给复制活动。在复制活动源中使用通配符文件路径

*.csv
,如下所示。

enter image description here

您可以对文件夹使用通配符路径,或根据文件的文件夹级别手动指定文件夹名称。在这里,我的 csv 文件位于

uniondata
容器内,因此我只给出了路径。

在复制活动目标中,选择合并文件选项。

enter image description here

现在,调试管道,将在目标位置生成具有给定名称的单个镶木地板文件,如下所示。

enter image description here

此文件将包含所有源文件的并集,但请注意行的顺序是随机的。

© www.soinside.com 2019 - 2024. All rights reserved.