将HOCR输出转换为字符串(用于正则表达式的策略是什么?

问题描述 投票:0回答:1

我正在与Pytesseract合作,并希望将HOCR输出转换为字符串。当然,Pytesseract中实现了这种功能,但是我想更多地了解实现它的可能策略。

from pytesseract import image_to_pdf_or_hocr
hocr_output = image_to_pdf_or_hocr(image, extension='hocr')

我正在与Pytesseract合作,并希望将HOCR输出转换为字符串。当然,Pytesseract中实现了这种功能,但我想了解更多可能的...

python python-tesseract hocr
1个回答
0
投票

由于hOCR是.xml的一种,我们可以使用.xml解析器。

© www.soinside.com 2019 - 2024. All rights reserved.