我有 250,000 行名字和姓氏。名字和姓氏在不同的列中,但它们可能不一致,例如:
约翰·史密斯 约翰·史密斯 约翰·史密斯 约翰·史密斯
如何识别这些近似重复项并使用 openrefine 删除/合并它们?
我尝试使用排序然后使用空白向下,但它似乎只适用于完全匹配的重复项。
OpenRefine 实现了几种聚类方法来识别和合并数据。查看OpenRefine文档了解详情。
每种聚类方法都有其优点和缺点,因此通常建议将它们结合起来并使用多次迭代。
在您的情况下,我将使用以下工作流程: