使用 Tesseract 检测黑色背景上的白色字符

问题描述 投票:0回答:2

我对 Tesseract OCR 完全陌生。这个问题可能很简单,但我似乎无法使用谷歌找到答案。

基本上,我有一个包含两个部分的图像:第一部分位于图像顶部,具有黑色背景和白色文本;第二部分位于图像顶部,具有黑色背景和白色文本;第二部分位于图像顶部,具有黑色背景和白色文本。第二部分位于图像底部,具有白色背景和黑色文本。

我在图像上运行了 tesseract,它正确识别了底部的所有字符,但没有识别顶部的字符。我确信顶部的字符非常清晰,应该很容易被 Tesseract 识别。唯一的区别是它有黑色背景。

有没有办法使用Tesseract同时识别黑白背景的文本?

tesseract
2个回答
13
投票

T. Kasar、J. Kumar 和 A. G. Ramakrishnan 的一篇论文描述了该问题的一种解决方案:“字体和背景颜色独立文本二值化”。该论文可以在这里找到。 Jason Funk 对该算法有一个实现。他的实现可以在here找到。 我在该算法上取得了一些成功。我认为这种类型的解决方案正是您正在寻找的。

您可能还会发现查看最近提出的有关背景去除的问题(OpenCV for OCR:如何计算灰度图像 OCR 的阈值水平)及其答案很有帮助。您可以通过背景颜色分隔感兴趣的区域,然后将每个区域交给超立方体进行处理。或者,在二值化后,您可以反转图像黑色背景部分中的 8x8 像素区域(如上面的答案所述)(或反之亦然)以创建统一的背景。

最后,通过搜索车牌识别问题(或车牌)的解决方案,您可能会找到一些有用的信息。许多车牌(车牌)都有背景图像或灯光伪影,可能会干扰识别。更普遍的问题是背景去除。


0
投票

社论漫画是政治评论的一种有效形式,将复杂的问题提炼成简洁的视觉效果

`消息。通过巧妙地运用象征主义和讽刺,他们让观众对社会和政治问题进行批判性思考。通过讽刺政客和描述时事,他们提供了可以激发思考和引发讨论的独特视角。他们简洁的本质使他们能够超越语言障碍,向全球受众传达他们的信息。最终,社论漫画在追究权力责任和培养更知情、更积极参与的公民方面发挥着至关重要的作用。

© www.soinside.com 2019 - 2024. All rights reserved.