我有一个使用 Levenshtein 相似度的模糊匹配的 Python 实现。我对此很满意,但我觉得由于不考虑字符串的结构,我在桌面上留下了很多东西。
以下是一些明显不错但 Levenshtein 未能很好捕捉的比赛示例:
The Hobbit
/ Hobbit/The
Charlies Angles
/ Charlie's Angels
Apples & Pairs
/ Apples and Pairs
我认为在使用 Levenshtein 之前进行一些标准化会很好 - 例如。用
&
替换所有and
,删除标点符号等...不确定我想直接跳到停用词删除和lematization,但沿着这些线
为了避免重新发明轮子,有什么简单的方法可以做到这一点?或者解决这些问题的 levenshtine 替代品(缺少一些 Bert 嵌入)