Tesseract OCR 力模式

问题描述 投票:0回答:2

我想用 Tesseract 读取特定的字符序列,就像这篇文章一样: Tesseract OCR:是否可以强制使用特定模式?

我已经尝试过在 Tesseract 中将 bazaar 与模式

\d\d\d\A\A
进行匹配,并且 OCR 仍然可以识别其他不匹配的单词。

我尝试使用“tessedit_char_whitelist”参数,但我无法用它来选择字符的位置。

  • 我启动命令:
    tesseract image.jpg result -l eng bazaar
    我有这样的消息:

请在图案开头提供至少 4 个具体字符

无效的用户模式

\A\A\d\d\d

Tesseract 开源 OCR 引擎 v3.01 与 Leptonica

  • 图像.jpg :

  • 结果:

      AB123
      ABC12
      A1234
      12345
      ABCD1
    

所以这是错误的,我只是想捕捉序列“AB123”。

有人可以告诉我为什么我的用户模式文件中的正则表达式不起作用吗?配置方面我是严格按照bazaar教程来的。

regex ocr tesseract
2个回答
0
投票

如果添加选项

--oem 0
(仅限 Tesseract 的 OCR 引擎模式),
--user-patterns
选项将正确执行。请参阅此公关评论

有关详细示例,您可以阅读此答案


-1
投票

尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

应仅包含 2 个字母字符和 3 个数字。

您匹配之前所有内容的原因是因为 \w 是字母数字。

© www.soinside.com 2019 - 2024. All rights reserved.