最佳python数字OCR

问题描述 投票:0回答:1

我正在使用python中image_to_string包中的pytesseract函数。有时效果不错,但在某些情况下不会奏效或效果很差。

定义我要从数字图像中提取数字。 pytesseract程序包有时效果很好,而有时效果不佳。作为下图的示例,返回S989,该字符有一个错误的字符。

captcha1

不适用于以下图像:

captcha2

代码

def captcha_solver():
    get_captcha_img()
    img = cv2.imread("image.png")
    return image_to_string(img)

问题是否有适用于此类图像的软件包?如何使用简单的包装?如果是这样,什么是最好的方法?

python automation ocr captcha python-tesseract
1个回答
0
投票

您需要在发送前“改善”图像,您可以尝试删除背景,将其变为黑白,清除小噪音,使线条更粗等。您也可以将图像分割为单独的4张图像,然后分别发送每个图像。

它可能也有帮助-> image processing to improve tesseract OCR accuracy

© www.soinside.com 2019 - 2024. All rights reserved.