Tesseract - 将多个单词图像格式化为OCR的一个图像的最佳方法

问题描述投票：2回答：1

我有一系列图像，每个图像都包含一个单词。我没有在所有图像上单独运行pytesseract OCR（工作正常），我想将图像编译成一个大图像并在其上运行pytesseract OCR（以降低运行时间）。

格式化图像以获得最佳效果的最佳方法是什么？（即：它们应该水平，垂直，混乱等排列）

另外，最好的页面分割模式是什么？

我尝试过水平连接图像然后使用PSM 7（将图像视为单行文本），然而，这并没有产生与使用PSM 8在每个单独的图像上运行pytesseract OCR一样好的结果（将图像视为一个字）。

python ocr tesseract python-tesseract

1个回答

1
投票

pytesseract包裹tesseract可执行文件，因此它wrote each image to disk和read output from disk。 tesseract可执行文件的每次启动都会导致api的初始化（例如，从磁盘读取训练数据）。

如果您正在录制大文本/图像，这可能不是一个大问题，但如果您有大量短文本图像（例如单词），则浪费时间/性能。考虑通过cffi或ctype在python中使用tesseract C-API。见recent example in tesseract user forum。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.