Azure 数据工厂 - 使用多个列删除一个文件上的重复行

问题描述 投票:0回答:1

在 Azure 数据工厂数据流中,我有一个包含 4 列的文件,我想使用数据流转换删除所有重复行

示例

First_name,Last_name,Email,phone
Steven,king,[email protected],222 
Steve,king,[email protected],666
Steven,king,[email protected],222
Neena,kosh,[email protected],555
Nina,kosh,[email protected],999
Neena,Kosh,[email protected],555

我想要什么:

First_name,Last_name,Email,phone
Steven,king,[email protected],222 
Neena,kosh,[email protected],555

规则是名字、姓氏、电子邮件是否相同 或者 名字、姓氏、电话相同:我们认为它是重复的记录

azure ssis azure-data-factory
1个回答
0
投票

为了查找 ADF 数据流中的重复项,您可以使用 窗口变换 并对每个组应用

RowNumber()
函数。接下来,使用 Filter conversion 删除行号不是 1 的所有行。这将确保没有重复项。以下是实现此目标的步骤:

  • 源转换中获取源数据。
  • 进行 窗口转换 并提供要在
    over section
    中分组的列。
  • 指定要在
    sort section
    中对结果数据进行排序和计算的列名称。
  • 对名为
    rownumber()
    的新列应用
    window columns
    部分中的聚合函数
    Rownumber
  • 然后进行过滤变换并给出条件为
    Rownumber==1

对于您的情况,您可以使用此方法两次,一次删除组中的重复项

FirstName, LastName, Email
,另一次删除组中的重复项
FirstName,LastName,Phone

© www.soinside.com 2019 - 2024. All rights reserved.