使用Pypdf2从网页转换的pdf中提取文本。

Question

我使用chrome将一个网页转换成Pdf，并使用保存为pdf选项。现在的问题是，当我使用PyPDF2提取数据时，它显示为Null，而在其他pdf文件上却很容易工作。我知道我可以直接从网站中提取数据，但我想知道为什么不能工作。它显示了正确的页数，但是当我使用extracttext()时，它什么都没有显示。有人知道问题出在哪里吗？"该页面的链接是 https:/en.wikipedia.orgwikiRapping。. 我把这个网页转换为pdf。

import PyPDF2
pdfFileObj = open('C:/Users/System/Desktop/Rapping - Wikipedia.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()

Answer 1

PyPDF2从pdf中提取文本是非常不可靠的。此处太.它说:

虽然PyPDF2有.extractText()，可以在其页面对象上使用(本例中没有显示)，但它的工作效果不是很好。有些PDF会返回文本，有些会返回一个空字符串。当你想从一个PDF中提取文本时，你应该检查一下PDFMiner项目。PDFMiner是更强大的，是专门为从PDF中提取文本而设计的。

你可以代替安装和使用 pdfminer 使用
pip install pdfminer
或者你可以使用另一个名为 pdftotext 由 xpdfreader.页面上给出了使用该工具的说明。

你可以从以下网站下载命令行工具此处并可以使用pdftotext.exe实用程序，使用 subprocess .使用子流程的详细说明如下。此处

使用Pypdf2从网页转换的pdf中提取文本。

问题描述投票：0回答：1

1个回答

最新问题

使用Pypdf2从网页转换的pdf中提取文本。

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1