我正在与Pytesseract合作,并希望将HOCR输出转换为字符串。当然,Pytesseract中实现了这种功能,但是我想更多地了解实现它的可能策略。
from pytesseract import image_to_pdf_or_hocr
hocr_output = image_to_pdf_or_hocr(image, extension='hocr')
我正在与Pytesseract合作,并希望将HOCR输出转换为字符串。当然,Pytesseract中实现了这种功能,但我想了解更多可能的...
由于hOCR是.xml的一种,我们可以使用.xml解析器。