Python 中结构化字符串的模糊字符串匹配？

问题描述投票：0回答：0

我有一个使用 Levenshtein 相似度的模糊匹配的 Python 实现。我对此很满意，但我觉得由于不考虑字符串的结构，我在桌面上留下了很多东西。

以下是一些明显不错但 Levenshtein 未能很好捕捉的比赛示例：

我认为在使用 Levenshtein 之前进行一些标准化会很好 - 例如。用

替换所有

and

，删除标点符号等...不确定我想直接跳到停用词删除和lematization，但沿着这些线

为了避免重新发明轮子，有什么简单的方法可以做到这一点？或者解决这些问题的 levenshtine 替代品（缺少一些 Bert 嵌入）

nlp

string-matching

fuzzy-comparison