Tesseract 对于阿拉伯语单词/字母不返回任何内容

问题描述 投票:0回答:3

我已经安装了 Pytesseract,它可以完美地处理法语/英语文本以及数字。但是当我尝试阅读任何阿拉伯文本/字母时,它不会返回任何内容。

这是我使用的代码:

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

print(pytesseract.image_to_string(Image.open('maroc.jpg'), lang='ara'))

这是我要读的信

د

如果有人能够使用其他方法阅读它,请帮忙,谢谢!

ocr tesseract arabic
3个回答
5
投票

代码:

from pytesseract import image_to_string 
from PIL import Image
import pytesseract

print(pytesseract.image_to_pdf_or_hocr('test.png', lang='ara', extension='hocr'))

这里获取新的阿拉伯语tess数据:


1
投票

如果您想识别阿拉伯语单词,请从下面的链接下载经过训练的阿拉伯语模型,然后将其保存在根据您的 Tesseract 文件夹的位置

C:\Program Files\Tesseract-OCR\tessdata

C:\Program Files (x86)\Tesseract-OCR\tessdata

arabic_tesseract_trained


0
投票

对于树莓派 4 只需从 Eliyaz KL 答案下载模块并放入此路径 /usr/share/tesseract-ocr/4.00/tessdata/ 我不知道我在我的案例中回答的是哪种操作系统

© www.soinside.com 2019 - 2024. All rights reserved.