直接 Parquet 源与“无服务器 SQL 上的 SQL-选择外部表(指向该 Parquet)”源

问题描述 投票:0回答:1

在管道中,在数据流中,我可以用作源:

  1. 镶木地板文件
  2. 或者对无服务器 SQL 上的外部表进行 SQL 查询,该表指向 parquet 文件

假设水槽是另一个镶木地板文件,这两个选项哪个更好? 第一个选项更直接吗?

另一方面, 如果我在“镶木地板源”和接收器之间放置一个“过滤器序列”会怎么样: 这比在“无服务器 sql 查询源”(第二个选项)中使用“where”子句过滤更好吗?

那就是:

“镶木地板源 > 过滤器 > 镶木地板水槽”

比“选择...哪里...来源>镶木地板水槽”更好???

azure azure-data-factory pipeline parquet external-tables
1个回答
0
投票
使用 Parquet 文件作为源为您提供了一定的灵活性,您可以使用参数直接查询一个文件,或者仅查询自上次加载以来创建的文件。 另外,如果您需要更改源上的某些内容,则不必也更改外部表。

但是,在你的第二个问题中,通常最好提前过滤数据,而不是将所有数据引入数据流并在那里进行过滤。

如果适用,最好的选择是通过使用文件创建日期或读取特定文件夹来过滤数据流源中的文件。

© www.soinside.com 2019 - 2024. All rights reserved.