使用Pypdf2从网页转换的pdf中提取文本。

问题描述 投票:0回答:1

我使用chrome将一个网页转换成Pdf,并使用保存为pdf选项。现在的问题是,当我使用PyPDF2提取数据时,它显示为Null,而在其他pdf文件上却很容易工作。我知道我可以直接从网站中提取数据,但我想知道为什么不能工作。它显示了正确的页数,但是当我使用extracttext()时,它什么都没有显示。有人知道问题出在哪里吗?"该页面的链接是 https:/en.wikipedia.orgwikiRapping。. 我把这个网页转换为pdf。

import PyPDF2
pdfFileObj = open('C:/Users/System/Desktop/Rapping - Wikipedia.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
python pdf data-extraction pypdf2
1个回答
1
投票

PyPDF2从pdf中提取文本是非常不可靠的。此处 太.它说:

虽然PyPDF2有.extractText(),可以在其页面对象上使用(本例中没有显示),但它的工作效果不是很好。有些PDF会返回文本,有些会返回一个空字符串。当你想从一个PDF中提取文本时,你应该检查一下PDFMiner项目。PDFMiner是更强大的,是专门为从PDF中提取文本而设计的。

  1. 你可以代替安装和使用 pdfminer 使用

    pip install pdfminer

  2. 或者你可以使用另一个名为 pdftotextxpdfreader.页面上给出了使用该工具的说明。

你可以从以下网站下载命令行工具 此处并可以使用pdftotext.exe实用程序,使用 subprocess .使用子流程的详细说明如下。此处

© www.soinside.com 2019 - 2024. All rights reserved.