在 Pytesser 中使用多种语言

问题描述 投票:0回答:2

我已经开始使用Pytesser,它对英语和中文都很好用,但是有没有办法让两种语言同时工作?我必须制作自己的训练数据文件吗?我的代码是:

import Image
from pytesser import *
print image_to_string(Image.open("chinese_and_english.jpg"), lang="eng")
#also want to have chinese be recognized 

python ocr tesseract python-tesseract pytesser
2个回答
9
投票

我不确定 Pytesser,但使用 tesserocr 你可以指定多种语言。例如:

import tesserocr

with tesserocr.PyTessBaseAPI(lang='eng+chi_tra') as api:
    api.SetImageFile('eSXSz.jpg')
    print api.GetUTF8Text()

# or simply
print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra')

图像的输出示例:

In [8]: print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra')
Character, Chmese 動m川爬d
胸肌岫馴伽 H枷﹏ P﹏… …

〔Manda‥﹝ 二 Standard C…爬虯



一

口

X慣ng怕ng

请注意,像第一个示例中那样初始化 API 一次,然后通过调用

SetImageFile
(或带有
SetImage
对象的
PIL.Image
)将其重新用于多个图像,以避免每次都重新初始化 API,这样会更有效.


0
投票

PyTesseract 支持多种语言:

https://pypi.org/project/pytesseract/

具体来说,在

lang
参数中:

© www.soinside.com 2019 - 2024. All rights reserved.