Tesseract - 将多个单词图像格式化为OCR的一个图像的最佳方法

问题描述 投票:2回答:1

我有一系列图像,每个图像都包含一个单词。我没有在所有图像上单独运行pytesseract OCR(工作正常),我想将图像编译成一个大图像并在其上运行pytesseract OCR(以降低运行时间)。

格式化图像以获得最佳效果的最佳方法是什么? (即:它们应该水平,垂直,混乱等排列)

另外,最好的页面分割模式是什么?

我尝试过水平连接图像然后使用PSM 7(将图像视为单行文本),然而,这并没有产生与使用PSM 8在每个单独的图像上运行pytesseract OCR一样好的结果(将图像视为一个字)。

python ocr tesseract python-tesseract
1个回答
1
投票

pytesseract包裹tesseract可执行文件,因此它wrote each image to diskread output from disk。 tesseract可执行文件的每次启动都会导致api的初始化(例如,从磁盘读取训练数据)。

如果您正在录制大文本/图像,这可能不是一个大问题,但如果您有大量短文本图像(例如单词),则浪费时间/性能。考虑通过cffi或ctype在python中使用tesseract C-API。见recent example in tesseract user forum

© www.soinside.com 2019 - 2024. All rights reserved.