我需要解析远程pdf文件。使用 PyPDF2,可以通过
PdfReader(f)
来完成,其中 f=urllib.request.urlopen("some-url").read() 。 f 不能被 PdfReader 使用,看来 f 必须被解码。在decode()中应该使用什么参数,或者必须使用其他方法。
您需要使用:
f = urllib.request.urlopen("some-url").read()
在上面的行之后添加这些行:
from StringIO import StringIO
f = StringIO(f)
然后使用 PdfReader 阅读:
reader = PdfReader(f)
另请参阅:使用 pyPdf 打开 pdf url
可以使用BytesIO进行解码:
import urllib, PyPDF2
from io import BytesIO
f = urllib.request.urlopen("https://mypdf.pdf").read()
pdf_bytes = BytesIO(f)
pdf_reader = PyPDF2.PdfFileReader(pdf_bytes)