我试图在我的单个字符图像上运行 OCR,所有图像都是数字。我尝试在图像上运行 EasyOCR、Keras-OCR 和 Pytesseract,但没有返回正确的输出。我什至尝试了 MNIST,但输出仍然是错误的(它说输出是 5 而不是 7)。
我该怎么办?包括图片。
7 的图像
9 的图像
如果有预处理,我应该添加哪些方法?或者我应该做点别的吗?
每个 OCR 都针对不同类型的图像进行训练,请查看这篇文章,总结一下,“Tesseract”在高分辨率图像上表现良好。某些形态学操作(例如膨胀、腐蚀、OTSU 二值化)可以帮助提高 pytesseract 的性能。
“EasyOCR”是轻量级模型,为收据或 PDF 转换提供了良好的性能。它通过 pdf 文件、收据、账单等有组织的文本提供更准确的结果。
“Keras-OCR”是图像特定的 OCR 工具。如果文本位于图像内部并且其字体和颜色没有组织,Keras-ocr 会给出良好的结果。
对于这种数字,我推荐使用 Tesseract,如果问题仍然存在,请尝试创建自己的数字数据集(或搜索现有数据集)并微调现有模型。