使用.net提取Pdf元素

问题描述 投票:0回答:1

寻找免费/付费的 .net 库来提取给定 Acrobat (.pdf) 文档的文本/图形/图像元素(最好作为对象模型),以便我们可以将其转换为专有的所见即所得编辑器可以理解的另一种格式.

如果无法直接翻译,想看看可以采取哪些可能的方法来分别抓取文本元素、形状/图形、图像。目标格式要求使用页面上的 x,y 位置显式定位元素,并且 PDF 提取库有必要告诉我页面内已解析元素的坐标。

如有任何建议,我们将不胜感激。

.net pdf acrobat object-model pdf-parsing
1个回答
1
投票

您可以使用 Docotic.Pdf 库 来完成任务。

该库可以从 PDF 中提取文本并提供有关每个单词甚至字符的坐标的信息。它可以从 PDF 文档中提取图像,同时提供有关图像位置、大小和转换的信息。

免责声明:我为图书馆的供应商工作。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.