我使用tesseract-OCR从扫描图像中提取文本,对于少数图像由于分辨率低而无法正确识别文本,输出的是一些不相关的字符。
应用的技术。
将dpi提高到300.
opencv中的图像预处理技术。
在opencv中使用dnn_superres对图像进行升级。
噪声去除技术。
参考git repos,使用深度学习开发超分辨率算法模型。
通过训练tessdata提高魔方-ocr质量。
参考链接:
图片示例。
是否有任何简单的方法在python中改善文本而不使用任何深度学习模型。
我知道你更喜欢用深度学习来提升这些输入图像的分辨率,但我强烈建议你用以下方法进行实验 https:/github.comalexjcneural-enhance。,假设你有适当的硬件来运行神经网络和深度学习。
你的OCR输入图像的结果可能是有希望的。代码的文档是相当丰富的。
希望这对你有帮助