我正在开展一个项目,需要对基于文本的图像执行光学字符识别 (OCR)。然而,这些图像以各种方式被损坏(例如模糊、扭曲、低分辨率),这显着降低了 OCR 结果的准确性。
我已经尝试了几个预处理步骤,例如对二值图像进行拨号/腐蚀以及crimmins speckle_=removal,但结果仍然不令人满意。我的目标是在应用 OCR 之前提高这些损坏图像的质量或清晰度,以提高文本提取的准确性。
我遇到了一个名为 OCR-VQGAN 的模型,它看起来很接近我的需要,但它并不完全适合我的特定用例。我正在寻找有关机器学习模型或方法的建议,以帮助解决这种情况。理想情况下,我正在寻找在以下方面取得成功的模型:
任何有关现有模型、研究论文或 GitHub 存储库的指导有助于解决此问题,我们将不胜感激。另外,如果您认为图像处理或机器学习方面有任何特定的策略或技术可能有益,我将非常有兴趣了解它们。
提前感谢您的帮助!
为了提高损坏文本图像的 OCR 准确性,您可以考虑使用 DeblurGAN 进行图像去模糊,使用 SRGAN 进行超分辨率。此外,您应该考虑应用直方图均衡和非局部均值去噪等图像处理技术,以进一步增强图像质量并提高文本提取准确性。
你可以尝试使用 Transformer 和一些围绕 nlp 的策略来预测下一个 token。