从使用ItextSharp或PDFSharp创建的拼合PDF中提取文本

Question

我想使用ItextSharp从我具有的某些模板中检索的许多PDF中检索一些数据。

将那些PDF展平了

FormFlattening = true;

我尝试了许多我在互联网上发现的方法，但都没有成功。我收到错误消息：

System.InvalidOperationException: 'Stack empty.'

无论何时使用策略，无论何时我尝试提取时，通常都在以下行：

string thePage = PdfTextExtractor.GetTextFromPage(reader, i, strategy);

我也尝试了pdfSharp，没有运气，也没有关于提取的真实文档。我也尝试了两个使用IKVM的库，但是这些库无法在我的项目中工作。

Answer 1

我使用了商业产品，没有问题。 Adobe Acrobat无法提取任何内容。基本的表单文本大部分是图像，我也没有提取图像，但可能是通过耦合的OCR引擎提取的。我假设您只想要文本内容，而不需要图像OCR。如果使用OCR并将其提取到Unicode文档，那就很好了。