是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将其付诸实践。另外,如果它提供一个类来提取图像,那就更好了。有什么建议么?提前谢谢。
我还需要能够将其实现到现有的应用程序中。
您尝试过PDFKit.NET吗?它有合理的文档和一些很好的例子。它是为服务器环境设计的,所以有点贵。
编辑 这是 SourceForge 上的一个开源库,名为 iTextSharp。对于开源项目来说它是免费的。我还没用过它,但看起来很有希望。 这是一个教程,其中有很多代码示例。
您可以通过多种方式访问此处——很大程度上取决于您是否要保留原始 PDF 的格式(即段落和其他布局元素)。
如果您正在考虑商业解决方案,我们确实提供两种可能满足您要求的产品。一种是 EasyPDF SDK,它具有单次 ExtractText() 和 ExtractText2() 调用,可以将文本从 PDF 中提取为纯文本。
请注意,这些调用的输出非常简单,您将丢失很多原始布局元素。它们非常适合简单的文本提取,但如果您的 PDF 包含表格数据,则可能不太好。
如果您正在处理表格,更好的选择可能是将其作为富文本提取。我们有一个名为 EasyConverter SDK 的工具,专门用于商业文档,只需使用单个函数调用即可完成此操作。
使用 EasyConverter SDK,将保留原始 PDF 的布局。
两者都支持 C#,因此如果您有兴趣,请随时在 www.pdfonline.com 上查看评估版本。我确实为供应商工作,所以请像母亲爱自己的孩子一样接受这个建议:-) 我已经在 stackoverflow.com 上浏览代码片段很长时间了,但最近才开始发布,所以如果您有如果对任一 API 有任何疑问,请告诉我,我可以提供帮助。干杯!
Docotic.Pdf库可以从PDF文件中提取文本和图像。
您可以从整个文档或仅从某些页面中提取文本。该库可以提取纯文本以及带有坐标的文本块。
您可以从 PDF 中提取图像(JPEG 和 TIFF 文件)。
这里有一些适合您任务的示例:
免责声明:我为 Bit Miracle 工作,该库的供应商。
我们在工作中使用snowbound软件进行图像转换。它显然也支持文本提取。但是,它不是免费的。