抱歉,但有人知道我如何删除重复的行和Google Dataprep中的第一次出现?
那么两行(重复行+ 1.出现)都将被删除?
COL1,COL2
约翰·辛普森
会,费雷尔
约翰·辛普森
伦,麝香
将会:
COL1,COL2
会,费雷尔
伦,麝香
感谢你们!
对于更大的数据集来说,完全有可能存在更有效的方法,但我的想法最初是跳到使用分组。
从概念上讲,我所说的是使用分组(连接到相同的数据也可以工作)作为识别哪些行有重复的方法,然后使用单独的规则来过滤它们。
这是基于样本数据的概念验证配方争论:
groupby group: col1,col2 value: COUNT() type: flatAgg
filter type: greaterThan col: row_count greaterThan: 1 action: Delete
drop col: row_count action: Drop
(如果您将这些步骤一次粘贴到新配方步骤中,它将为您创建它们)
请注意,在这种情况下,您不必将参数传递给COUNT()
- 它只计算每个组中的行数(类似于SQL中的COUNT(*)
)。
您还可以看到我使用的是flatAgg
类型,它对应于Group By步骤中的“Group by as new columns(s)”选项。在您不希望重新指定的许多列的情况下,这非常有用,就像在普通的Group By(创建仅包含列的新表)中一样。为了帮助澄清这一点,以下是此步骤的设置:
希望有所帮助,快乐争吵!