如何参数化数据集,以便我可以使用 blob 文件夹中的多个 excel 文件逐个传递到 PowerQuery?

问题描述 投票:0回答:1

我在数据工厂中,需要帮助来参数化数据集,以便我可以使用 blob 文件夹中的多个文件在 PowerQuery 中进行处理,然后发送到 AzureSQL 表进行接收器(存储)。如果我想使用 PowerQuery 以相同的方式处理 100 个 excel 文件,我不想制作 100 个数据集。

我已成功执行管道,如下所示:

获取元数据活动以读取 blob 文件夹 (.xlsx) 中的所有文件,然后使用 for every 循环来获取每个文件,并在该活动中将其复制到 Azure SQL DB。

现在我想看看我是否可以做以下或类似的事情:

获取 blob 文件夹中的文件列表或获取文件的完整 blob 地址,然后使用 for 循环尝试传递一个文件/文件地址(每个循环)并通过 PowerQuery 处理它。

现在这可能吗?真的坚持这个。我想在将数据加载到接收器之前先在 PowerQuery 中处理数据。

鼓励替代想法!

azure-data-factory azure-blob-storage powerquery
1个回答
0
投票

您也可以在电源查询数据集中动态传递文件名。下面是详细步骤。

  • 执行“获取元数据”活动并从该活动中获取文件名列表。

    然后采用 for-each 活动并将
  • getmetadata 活动输出数组提供给 for-each 活动

    在 for-each 活动中,添加电源查询。打开电源查询源数据集,并将数据集文件名的动态内容表达式指定为
  • @item().name

gif1

    在电源查询活动的接收器设置中给出接收器名称。
这样就可以实现所有文件使用同一个power query pipeline的需求。

© www.soinside.com 2019 - 2024. All rights reserved.