这个link显示了如何将pdf
s转换为图像。有没有办法在转换为图像之前缩放我的pdf
s?在我的项目中,我正在将pdf
s转换为png
s,然后使用Python-tesseract
库来提取文本。我注意到,如果我缩放pdf
s然后将部件保存为png
s,那么OCR可以提供更好的结果。那么在转换为png之前有没有办法缩放pdf?
我认为提高图像的质量(分辨率)是比放大pdf更好的解决方案。
使用pdf2image
你可以很容易地完成这个:
安装pdf2image:pip install pdf2image
然后,在python中,将您的pdf转换为高质量的图像:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
通过玩质量参数你应该得到你想要的结果