将PDF转换为图像但放大后

问题描述 投票:5回答:1

这个link显示了如何将pdfs转换为图像。有没有办法在转换为图像之前缩放我的pdfs?在我的项目中,我正在将pdfs转换为pngs,然后使用Python-tesseract库来提取文本。我注意到,如果我缩放pdfs然后将部件保存为pngs,那么OCR可以提供更好的结果。那么在转换为png之前有没有办法缩放pdf?

image pdf ocr python-tesseract poppler
1个回答
7
投票

我认为提高图像的质量(分辨率)是比放大pdf更好的解决方案。

使用pdf2image你可以很容易地完成这个:

安装pdf2image:pip install pdf2image

然后,在python中,将您的pdf转换为高质量的图像:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

通过玩质量参数你应该得到你想要的结果

© www.soinside.com 2019 - 2024. All rights reserved.