改进OCR预处理的步骤

问题描述 投票:-1回答:1

花了半天的时间试图找到预处理Tesseract OCR图像的最佳方法,除了阈值处理之外没有找到任何好的结果。任何人都可以建议我应该尝试什么样的步骤? OpenCV,ImageMagick,Gimp对我来说很适合作为工具,图像可以有不同的背景但字体的字体和颜色将始终相同。以下是图像样本:

  1. Image 1
  2. Image 2
  3. Image 3

我有类似的东西,目前使用阈值过滤器:enter image description here

来自OCR的文字就是:“消除了生命的情况220_ {¢ - \”| “,Vv a。 - ”

opencv ocr tesseract preprocessor
1个回答
0
投票

我发现了一篇很好的文章,描述了许多预处理步骤https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

但最好的方法是使用“Top-hat形态操作” - 使用邻域像素进行操作。这可以使用OpenCV完成 qazxsw poi

或者可以使用ImageMagick tophat = cv2.morphologyEx(gray, cv2.MORPH_TOPHAT, rectKernel)完成

© www.soinside.com 2019 - 2024. All rights reserved.