删除重复项+首次出现

问题描述 投票:0回答:1

抱歉,但有人知道我如何删除重复的行和Google Dataprep中的第一次出现?

那么两行(重复行+ 1.出现)都将被删除?

COL1,COL2

约翰·辛普森

会,费雷尔

约翰·辛普森

伦,麝香

将会:

COL1,COL2

会,费雷尔

伦,麝香

感谢你们!

google-cloud-dataprep
1个回答
0
投票

对于更大的数据集来说,完全有可能存在更有效的方法,但我的想法最初是跳到使用分组。

从概念上讲,我所说的是使用分组(连接到相同的数据也可以工作)作为识别哪些行有重复的方法,然后使用单独的规则来过滤它们。

这是基于样本数据的概念验证配方争论:

groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

(如果您将这些步骤一次粘贴到新配方步骤中,它将为您创建它们)

请注意,在这种情况下,您不必将参数传递给COUNT() - 它只计算每个组中的行数(类似于SQL中的COUNT(*))。

您还可以看到我使用的是flatAgg类型,它对应于Group By步骤中的“Group by as new columns(s)”选项。在您不希望重新指定的许多列的情况下,这非常有用,就像在普通的Group By(创建仅包含列的新表)中一样。为了帮助澄清这一点,以下是此步骤的设置:Google Cloud Dataprep Group By recipe step showing the flatAgg or "as new columns" grouping type

希望有所帮助,快乐争吵!

© www.soinside.com 2019 - 2024. All rights reserved.