我无法让tesseract识别下图中的任何字符:
当我从命令行在此图像上运行tesseract时,我得到"Empty page!!"
-即没有结果-返回。根据我对Wiki的“提高质量”部分的阅读,我认为问题可能在于此图像中的单词不是词典单词。考虑到这一点,我既尝试完全禁用tesseract字典(使用load_system_dawg
和load_freq_dawg
配置标志),也尝试使用这些其他单词(LAO和CAUD)来扩展现有字典。这些方法都不起作用。我已经尝试过tesseract版本3、4,并且已经在Mac计算机上从源代码构建了版本5。所有人都给出了相同的结果。
[奇怪的是,如果我将图像中的确切单词输入到文字处理器中并进行屏幕截图,则可以正常工作:tesseract可以读取生成的图像。它正确地解析每个字符。这是该图片:
两张图像之间的唯一区别是,第一张图像的分辨率/质量略低。那么我是否会相信tesseract无法识别出质量稍差的图像中的字符?我有什么办法可以改善图像质量?还有其他我想念的东西吗?
提前感谢。
这是常见问题。您可能需要使用重新缩放,滤镜等对图像进行预处理。
有关如何执行此操作的一些参考:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
解决方案是使用正确的page segmentation method(PSM)。就我而言,PSM 6是针对单个文本块的,它可以解决问题。