推荐提取api/库，以便更好地使用Nodejs提取pdf中的所有信息

Question

什么库或 api 最适合在 Nodejs 中提取 pdf 文件中的信息。

诸如文本（它们如何正确构造）、图像（加上图像上的信息，例如文本（如果有））、表格等...

我知道像 pdf-extract 这样的库和其他库，但它们中的大多数功能仅限于提取文本，几乎不能做我上面提到的其他事情。

另外，我不想混合许多不同的库来实现这些技巧。

那么你有什么建议？

Answer 1

pdf.js

我认为是最受欢迎的。它用于在 Web 浏览器中渲染 PDF 文档，但也可以在 Node.js 环境中使用。

您可以用它提取文本，还可以从 PDF 中提取图像。

唯一的问题是它没有将表格提取为结构化数据，但您可以使用文本定位数据来尝试提供结构，当然使用一些额外的逻辑。

要安装，您需要运行：

npm install pdfjs-dist

Poppler 是另一种选择，但我以前从未使用过...