Pytesseract / 识别字符+数字+空格

Question

我想使用以下代码从图像中识别一些文本（带有数字和空格）：

erg = pytesseract.image_to_string(img)

通常这可以很好地配合，但我也得到了我不想要的角色，就像Ô

ÔAU OPTRONICS CORPORATION

() Preliminary Specification
(V) Final Specification
Module 18.5" Color TFT-LCD
Model Name (G18SHANOT.O
Customer Date ÔApproved by Date
Crystal Hsieh 2016/06/29
Approved by Propared by

所以我尝试使用以下代码将超正方体列入白名单：

workString =f'-c tessedit\_char\_whitelist={string.digits}(){string.ascii\_letters}' 
erg = pytesseract.image\_to\_string(img, config=workString)

这样我得到了以下文本 - 所以看起来 Ô 没有输出 - 但不幸的是不再有空格 -

友达光电股份有限公司

()ProliminarySpecification
(V)FinalSpecification
Module 185ColorTFTLCD
ModelName (G18SHANOTO
Customer Date Approvedby Date
CrstalHsieh 2016(06)29
Approvedby Proparedby

有没有办法将字符和数字列入白名单，但仍输出空格/空白？

Answer 1

config = f"-c tessedit_char_whitelist='abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.#-:/ '"

尝试这个。当我遇到类似问题时，我在内部引号中添加了一个空格，但这种方法对我有用（空格是字符串中的最后一个字符）。请随意添加/删除您希望超立方体包含/排除的任何字符

Pytesseract / 识别字符+数字+空格

问题描述投票：0回答：1

1个回答

最新问题

Pytesseract / 识别字符+数字+空格

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1