使用BERT的文本分类-如何处理拼写错误的单词

问题描述投票：-1回答：1

我不确定这是否是提交此类问题的最佳地点，也许CrossValdation将是一个更好的地点。

我正在研究文本多类分类问题。我基于PyTorch（拥抱面变压器库）中实现的BERT概念构建了模型。该模型的性能非常好，除非输入句子存在OCR错误或等效地拼写错误。

例如，如果输入为“ NALIBU DRINK”，则Bert令牌生成器将生成['na'，'## lib'，'## u'，'drink']，并且模型的预测是完全错误的。另一方面，如果我纠正了第一个字符，那么我的输入是“ MALIBU DRINK”，则Bert令牌生成器将生成两个令牌['malibu'，'drink']，并且模型会以很高的置信度做出正确的预测。

是否有任何方法可以增强Bert令牌生成器以使其能够使用拼写错误的单词？

pytorch

text-classification

huggingface-transformers

bert

misspelling

1个回答

0
投票

您可以利用BERT的功能来纠正拼写错误的单词。下面链接的文章通过代码片段很好地解释了该过程https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

总而言之，您可以通过SpellChecker函数识别拼写错误的单词并获得替换建议。然后，使用BERT查找最合适的替代产品。

使用BERT的文本分类-如何处理拼写错误的单词

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1