在 Azure 数据工厂数据流中,我有一个包含 4 列的文件,我想使用数据流转换删除所有重复行
示例
First_name,Last_name,Email,phone
Steven,king,[email protected],222
Steve,king,[email protected],666
Steven,king,[email protected],222
Neena,kosh,[email protected],555
Nina,kosh,[email protected],999
Neena,Kosh,[email protected],555
我想要什么:
First_name,Last_name,Email,phone
Steven,king,[email protected],222
Neena,kosh,[email protected],555
规则是名字、姓氏、电子邮件是否相同 或者 名字、姓氏、电话相同:我们认为它是重复的记录
为了查找 ADF 数据流中的重复项,您可以使用 窗口变换 并对每个组应用
RowNumber()
函数。接下来,使用 Filter conversion 删除行号不是 1 的所有行。这将确保没有重复项。以下是实现此目标的步骤:
over section
中分组的列。sort section
中对结果数据进行排序和计算的列名称。rownumber()
的新列应用 window columns
部分中的聚合函数 Rownumber
。Rownumber==1
。对于您的情况,您可以使用此方法两次,一次删除组中的重复项
FirstName, LastName, Email
,另一次删除组中的重复项FirstName,LastName,Phone
。