Python 中结构化字符串的模糊字符串匹配?

问题描述 投票:0回答:0

我有一个使用 Levenshtein 相似度的模糊匹配的 Python 实现。我对此很满意,但我觉得由于不考虑字符串的结构,我在桌面上留下了很多东西。

以下是一些明显不错但 Levenshtein 未能很好捕捉的比赛示例:

  • The Hobbit
    /
    Hobbit/The
  • Charlies Angles
    /
    Charlie's Angels
  • Apples & Pairs
    /
    Apples and Pairs

我认为在使用 Levenshtein 之前进行一些标准化会很好 - 例如。用

&
替换所有
and
,删除标点符号等...不确定我想直接跳到停用词删除和lematization,但沿着这些线

为了避免重新发明轮子,有什么简单的方法可以做到这一点?或者解决这些问题的 levenshtine 替代品(缺少一些 Bert 嵌入)

nlp string-matching fuzzy-comparison
© www.soinside.com 2019 - 2024. All rights reserved.