从使用ItextSharp或PDFSharp创建的拼合PDF中提取文本

问题描述 投票:-1回答:1

我想使用ItextSharp从我具有的某些模板中检索的许多PDF中检索一些数据。

将那些PDF展平了

FormFlattening = true;

我尝试了许多我在互联网上发现的方法,但都没有成功。我收到错误消息:

System.InvalidOperationException: 'Stack empty.'

无论何时使用策略,无论何时我尝试提取时,通常都在以下行:

string thePage = PdfTextExtractor.GetTextFromPage(reader, i, strategy);

我也尝试了pdfSharp,没有运气,也没有关于提取的真实文档。我也尝试了两个使用IKVM的库,但是这些库无法在我的项目中工作。

c# pdf itext pdfsharp
1个回答
0
投票

我使用了商业产品,没有问题。 Adobe Acrobat无法提取任何内容。基本的表单文本大部分是图像,我也没有提取图像,但可能是通过耦合的OCR引擎提取的。我假设您只想要文本内容,而不需要图像OCR。如果使用OCR并将其提取到Unicode文档,那就很好了。

enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.