Tesseract OCR - 将复选框识别为单词

Question

对于客户，我想教 Tesseract 将复选框识别为单词。当 Tesseract 识别空复选框时，效果很好。

此命令与 this 教程相结合，效果非常好，Tesseract 能够找到空复选框并将其解释为“[_]”：

tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train

这是我成功分析文档的命令：

tesseract test.png test -l deu1+deu2

然后我尝试训练一个选中的复选框，但得到了这个错误：

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:       1
   Boxes failed resegmentation:       1
   Found 0 good blobs.
Generated training data for 0 words

有人知道如何教 Tesseract 识别选中的复选框吗？

提前谢谢您！

Answer 1

经过多次尝试，我发现当然可以教 Tesseract 不同类型的字母。但据我今天所知，不可能教 Tesseract 一个不符合字母某些“视觉规则”的符号。例如：字母始终是墨水的一条连接线，最多是墨水和“它之外的东西”的组合（例如：i,ä,ö,ü）这里的问题是没有什么与复选框类似（一个对象在另一个对象中）这会导致 Tesseract 出现问题和崩溃。

Answer 2

我知道问题发布已经有几年了，但有人找到解决方案吗？截至 2023 年，我的代码可以识别框中的行，但当选中框时，我会得到不同的值 w 和 &，但没有选中。当方框中带有 X 时，我没有任何问题。如果有人有任何新的见解，我将不胜感激。

Tesseract OCR - 将复选框识别为单词

问题描述投票：0回答：2

2个回答

最新问题

Tesseract OCR - 将复选框识别为单词

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2