对于客户,我想教 Tesseract 将复选框识别为单词。当 Tesseract 识别空复选框时,效果很好。
此命令与 this 教程相结合,效果非常好,Tesseract 能够找到空复选框并将其解释为“[_]”:
tesseract -psm 10 deu2.unchecked1.exp0.JPG deu2.unchecked1.exp0.box nobatch box.train
这是我成功分析文档的命令:
tesseract test.png test -l deu1+deu2
然后我尝试训练一个选中的复选框,但得到了这个错误:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
FAIL!
APPLY_BOXES: boxfile line 1/[X] ((60,30),(314,293)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
Boxes read from boxfile: 1
Boxes failed resegmentation: 1
Found 0 good blobs.
Generated training data for 0 words
有人知道如何教 Tesseract 识别选中的复选框吗?
提前谢谢您!
经过多次尝试,我发现当然可以教 Tesseract 不同类型的字母。但据我今天所知,不可能教 Tesseract 一个不符合字母某些“视觉规则”的符号。例如:字母始终是墨水的一条连接线,最多是墨水和“它之外的东西”的组合(例如:i,ä,ö,ü)这里的问题是没有什么与复选框类似(一个对象在另一个对象中)这会导致 Tesseract 出现问题和崩溃。