使用Python进行PDF解析-提取格式化和纯文本[关闭]

我正在寻找一个PDF库，它将允许我从PDF文档中提取文本。我看过PyPDF，它可以很好地从PDF文档中提取文本。这样做的问题是，如果文档中有表，则表中的文本将与文档其余文本一起在线提取。这可能会带来问题，因为它会产生无用的文本部分，看起来有些乱码（例如，许多数字混在一起）。

我想从PDF文档中提取文本，除外任何表格和特殊格式。那里有图书馆吗？

58
投票

您还可以查看PDFMiner（或查看旧版本的Python，请参阅PDFMiner。]

PDFMiner感兴趣的一个特殊功能是，您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行，单词，字符等之间的间距来执行此操作。因此，也许可以通过对此进行调整来实现所需的功能（取决于文档的可变性）。 PDFMiner还可以为您提供文本在页面中的位置，它可以按对象ID和其他内容提取数据。因此，挖掘PDFMiner并发挥创造力吧！

但是您的问题确实不是一个容易解决的问题，因为在PDF中，文本不是连续的，而是由绝对定位在页面中的许多小字符组成的。 PDF的重点是保持布局完整。它不是面向内容的，而是面向呈现的。

0
投票

这是一个很难解决的问题，因为视觉上相似的PDF可能会根据其制作方式而具有截然不同的结构。在最坏的情况下，库基本上需要像OCR一样工作。另一方面，PDF可能包含足够的结构和元数据，以便于轻松删除表格和图形，可以对该库进行定制以加以利用。

我很确定没有开源工具可以解决各种PDF的问题，但我记得曾经听说过商业软件声称可以完全满足您的要求。我确信您在谷歌搜索时会碰到它们。

问题描述投票：81回答：2

2个回答

最新问题

使用Python进行PDF解析-提取格式化和纯文本[关闭]

问题描述 投票：81回答：2

2个回答

最新问题

问题描述投票：81回答：2