Word 如何能够在其他人失败的情况下如此出色地检测 PDF 结构?有没有图书馆可以做到这一点?

问题描述 投票:0回答:0

我对解析 PDF 感兴趣已有一段时间,并取得了不同程度的成功。然而,对于 PDF,有用的数据通常包含在文本中,即在表格之外等。但是,如果您要从句子中获取数据,那么句子没有被破坏是至关重要的。我发现的最好的方法(老实说,唯一的方法)是使用 Word,但这是一个看似草率的解决方案,并不总是能正确识别 PDF。

我明白解析 PDF 并不是一件微不足道的事情,但是令我惊讶的是似乎没有像 word 这样的库/工具可以检测整个句子和格式,即文本是否为粗体或字体大小。

其他命令提示工具,如 XPDF 阅读器,非常擅长从 PDF 立即创建文本文件,甚至可以保持布局,但同样无法检测句子是否被破坏。我知道实际上没有什么可以检测到的,因为 PDF 只是页面上没有任何关系的文字。

显然这一定是一件有点困难的事情,但这又引出了一个问题,word 是如何做到这么好的? (不是 100%,但我遇到过最好的)

如果 word 可以做到这一点,那么肯定已经在 python 库或类似库中实现了相同的功能?还是我太天真了..

pdf word text-parsing pdf-parsing
© www.soinside.com 2019 - 2024. All rights reserved.