删除重复项+首次出现

Question

抱歉，但有人知道我如何删除重复的行和Google Dataprep中的第一次出现？

那么两行（重复行+ 1.出现）都将被删除？

COL1，COL2

约翰·辛普森

会，费雷尔

约翰·辛普森

伦，麝香

将会：

COL1，COL2

会，费雷尔

伦，麝香

感谢你们！

Answer 1

对于更大的数据集来说，完全有可能存在更有效的方法，但我的想法最初是跳到使用分组。

从概念上讲，我所说的是使用分组（连接到相同的数据也可以工作）作为识别哪些行有重复的方法，然后使用单独的规则来过滤它们。

这是基于样本数据的概念验证配方争论：

groupby group: col1,col2 value: COUNT() type: flatAgg

filter type: greaterThan col: row_count greaterThan: 1 action: Delete

drop col: row_count action: Drop

（如果您将这些步骤一次粘贴到新配方步骤中，它将为您创建它们）

请注意，在这种情况下，您不必将参数传递给COUNT() - 它只计算每个组中的行数（类似于SQL中的COUNT(*)）。

您还可以看到我使用的是flatAgg类型，它对应于Group By步骤中的“Group by as new columns（s）”选项。在您不希望重新指定的许多列的情况下，这非常有用，就像在普通的Group By（创建仅包含列的新表）中一样。为了帮助澄清这一点，以下是此步骤的设置：

希望有所帮助，快乐争吵！

删除重复项+首次出现

问题描述投票：0回答：1

1个回答

最新问题

删除重复项+首次出现

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1