如何使用 OpenRefine 删除或合并几乎重复的名称?

问题描述 投票:0回答:1

我有 250,000 行名字和姓氏。名字和姓氏在不同的列中,但它们可能不一致,例如:

约翰·史密斯 约翰·史密斯 约翰·史密斯 约翰·史密斯

如何识别这些近似重复项并使用 openrefine 删除/合并它们?

我尝试使用排序然后使用空白向下,但它似乎只适用于完全匹配的重复项。

duplicates data-cleaning openrefine
1个回答
0
投票

OpenRefine 实现了几种聚类方法来识别和合并数据。查看OpenRefine文档了解详情。

每种聚类方法都有其优点和缺点,因此通常建议将它们结合起来并使用多次迭代。

在您的情况下,我将使用以下工作流程:

  1. 指纹识别
  2. N-Gram 指纹识别
  3. 也许是一个语音算法(可能是methaphone),但它可能主要产生名字的误报。
  4. 莱文斯坦
  5. 具有更小块大小和更大距离的 Levenshtein
  6. PPM
© www.soinside.com 2019 - 2024. All rights reserved.