我使用PyPDF2创建了一个PDF分割器。它将超过20Mb大小的PDF分割成多个较小的PDF。
我使用的逻辑是将所有的页面分割成单页的PDF,找到每个页面的大小。添加的大小,直到20Mb是达到和分裂。
我所面临的问题是,有某些页面在一个PDF中,这需要几乎相同的原始PDF大小。虽然当我做的页面提取手动的大小是500Kb左右。
不知道为什么是大小增加。请帮助我解决这些问题。
for i in range(pdf_reader.numPages):
# New PDF with each page
outputpdf = newpath + '\\' + pp.split('.pdf')[0] + 'page' + str(i+1) +'.pdf'
#PDF Writer
output = PyPDF2.PdfFileWriter()
#Writing each page to PDF Writer
output.addPage(pdf_reader.getPage(i))
#Write into the new PDF
with open(outputpdf, "wb") as outputStream:
output.write(outputStream)
经过多次试验和错误,我能够找到一个答案。我使用pdfrw库来提取每一页,而不是PyPDF2,我不再面临同样的问题了。