我正在尝试使用pytesseract从.jpg文件中提取数据,但只提取了部分文本,这些文本存在拼写错误。任何人都可以帮助建议我如何提取全文。我已附加.jpg作为您用于文本提取的参考代码段。
img=Image.open('page-594-5.jpg')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
text=pytesseract.image_to_string(img,lang='eng')
print(text)
Pytesseract即使在印刷文本上也有其自身的局限性。尽管可以提高性能,但是您可以选择以下一些解决方案:
1)每个文本字符的大小(字体大小)约为12pt。
2)将图像分辨率设置为约300 DPI
3)对图像进行消噪