Pytesseract / 识别字符+数字+空格

问题描述 投票:0回答:1

我想使用以下代码从图像中识别一些文本(带有数字和空格):

erg = pytesseract.image_to_string(img)

通常这可以很好地配合,但我也得到了我不想要的角色,就像Ô

ÔAU OPTRONICS CORPORATION

() Preliminary Specification
(V) Final Specification
Module 18.5" Color TFT-LCD
Model Name (G18SHANOT.O
Customer Date ÔApproved by Date
Crystal Hsieh 2016/06/29
Approved by Propared by

所以我尝试使用以下代码将超正方体列入白名单:

workString =f'-c tessedit\_char\_whitelist={string.digits}(){string.ascii\_letters}' 
erg = pytesseract.image\_to\_string(img, config=workString)

这样我得到了以下文本 - 所以看起来 Ô 没有输出 - 但不幸的是不再有空格 -

友达光电股份有限公司

()ProliminarySpecification
(V)FinalSpecification
Module 185ColorTFTLCD
ModelName (G18SHANOTO
Customer Date Approvedby Date
CrstalHsieh 2016(06)29
Approvedby Proparedby

有没有办法将字符和数字列入白名单,但仍输出空格/空白?

python python-tesseract
1个回答
0
投票

config = f"-c tessedit_char_whitelist='abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.#-:/ '"

尝试这个。当我遇到类似问题时,我在内部引号中添加了一个空格,但这种方法对我有用(空格是字符串中的最后一个字符)。请随意添加/删除您希望超立方体包含/排除的任何字符

© www.soinside.com 2019 - 2024. All rights reserved.