使用BERT的文本分类-如何处理拼写错误的单词

问题描述 投票:-1回答:1

我不确定这是否是提交此类问题的最佳地点,也许CrossValdation将是一个更好的地点。

我正在研究文本多类分类问题。我基于PyTorch(拥抱面变压器库)中实现的BERT概念构建了模型。该模型的性能非常好,除非输入句子存在OCR错误或等效地拼写错误。

例如,如果输入为“ NALIBU DRINK”,则Bert令牌生成器将生成['na','## lib','## u','drink'],并且模型的预测是完全错误的。另一方面,如果我纠正了第一个字符,那么我的输入是“ MALIBU DRINK”,则Bert令牌生成器将生成两个令牌['malibu','drink'],并且模型会以很高的置信度做出正确的预测。

是否有任何方法可以增强Bert令牌生成器以使其能够使用拼写错误的单词?

pytorch text-classification huggingface-transformers bert misspelling
1个回答
0
投票

您可以利用BERT的功能来纠正拼写错误的单词。下面链接的文章通过代码片段很好地解释了该过程https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

总而言之,您可以通过SpellChecker函数识别拼写错误的单词并获得替换建议。然后,使用BERT查找最合适的替代产品。

© www.soinside.com 2019 - 2024. All rights reserved.