推荐提取api/库,以便更好地使用Nodejs提取pdf中的所有信息

问题描述 投票:0回答:1

什么库或 api 最适合在 Nodejs 中提取 pdf 文件中的信息。

诸如文本(它们如何正确构造)、图像(加上图像上的信息,例如文本(如果有))、表格等...

我知道像 pdf-extract 这样的库和其他库,但它们中的大多数功能仅限于提取文本,几乎不能做我上面提到的其他事情。

另外,我不想混合许多不同的库来实现这些技巧。

那么你有什么建议?

javascript api pdf extract
1个回答
0
投票

pdf.js

我认为是最受欢迎的。它用于在 Web 浏览器中渲染 PDF 文档,但也可以在 Node.js 环境中使用。

您可以用它提取文本,还可以从 PDF 中提取图像。

唯一的问题是它没有将表格提取为结构化数据,但您可以使用文本定位数据来尝试提供结构,当然使用一些额外的逻辑。

要安装,您需要运行:

npm install pdfjs-dist

这是 git 链接:https://github.com/mozilla/pdf.js

Poppler 是另一种选择,但我以前从未使用过...

© www.soinside.com 2019 - 2024. All rights reserved.