使用Python3和PyPDF2解析远程pdf文件

问题描述 投票:0回答:2

我需要解析远程pdf文件。使用 PyPDF2,可以通过

PdfReader(f)
来完成,其中 f=urllib.request.urlopen("some-url").read() 。 f 不能被 PdfReader 使用,看来 f 必须被解码。在decode()中应该使用什么参数,或者必须使用其他方法。

python-3.x pdf decode pypdf
2个回答
0
投票

您需要使用:

f = urllib.request.urlopen("some-url").read()

在上面的行之后添加这些行:

from StringIO import StringIO

f = StringIO(f)

然后使用 PdfReader 阅读:

reader = PdfReader(f)

另请参阅:使用 pyPdf 打开 pdf url


0
投票

可以使用BytesIO进行解码:

import urllib, PyPDF2
from io import BytesIO
f = urllib.request.urlopen("https://mypdf.pdf").read()
pdf_bytes = BytesIO(f)
pdf_reader = PyPDF2.PdfFileReader(pdf_bytes)
© www.soinside.com 2019 - 2024. All rights reserved.