如何使用 OpenRefine 删除或合并几乎重复的名称？

问题描述投票：0回答：1

我有 250,000 行名字和姓氏。名字和姓氏在不同的列中，但它们可能不一致，例如：

约翰·史密斯约翰·史密斯约翰·史密斯约翰·史密斯

如何识别这些近似重复项并使用 openrefine 删除/合并它们？

我尝试使用排序然后使用空白向下，但它似乎只适用于完全匹配的重复项。

duplicates data-cleaning openrefine

1个回答

0
投票

OpenRefine 实现了几种聚类方法来识别和合并数据。查看OpenRefine文档了解详情。

每种聚类方法都有其优点和缺点，因此通常建议将它们结合起来并使用多次迭代。

在您的情况下，我将使用以下工作流程：

指纹识别
N-Gram 指纹识别
也许是一个语音算法（可能是methaphone），但它可能主要产生名字的误报。
莱文斯坦
具有更小块大小和更大距离的 Levenshtein
PPM

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.