Tesseract OCR 力模式

Question

我想用 Tesseract 读取特定的字符序列，就像这篇文章一样： Tesseract OCR：是否可以强制使用特定模式？

我已经尝试过在 Tesseract 中将 bazaar 与模式

\d\d\d\A\A

进行匹配，并且 OCR 仍然可以识别其他不匹配的单词。

我尝试使用“tessedit_char_whitelist”参数，但我无法用它来选择字符的位置。

请在图案开头提供至少 4 个具体字符

无效的用户模式
\A\A\d\d\d

Tesseract 开源 OCR 引擎 v3.01 与 Leptonica

结果：

  AB123
  ABC12
  A1234
  12345
  ABCD1

所以这是错误的，我只是想捕捉序列“AB123”。

有人可以告诉我为什么我的用户模式文件中的正则表达式不起作用吗？配置方面我是严格按照bazaar教程来的。

Answer 1

如果添加选项

--oem 0

（仅限 Tesseract 的 OCR 引擎模式），

--user-patterns

选项将正确执行。请参阅此公关评论。

有关详细示例，您可以阅读此答案。

Answer 2

尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

应仅包含 2 个字母字符和 3 个数字。

您匹配之前所有内容的原因是因为 \w 是字母数字。