使用 C# 将 PDF 转换为可用文本 [已关闭]

问题描述 投票:0回答:4

是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将其付诸实践。另外,如果它提供一个类来提取图像,那就更好了。有什么建议么?提前谢谢。

我还需要能够将其实现到现有的应用程序中。

c# pdf text-extraction image-extraction
4个回答
3
投票

您尝试过PDFKit.NET吗?它有合理的文档和一些很好的例子。它是为服务器环境设计的,所以有点贵。

编辑 这是 SourceForge 上的一个开源库,名为 iTextSharp。对于开源项目来说它是免费的。我还没用过它,但看起来很有希望。 这是一个教程,其中有很多代码示例。


1
投票

您可以通过多种方式访问此处——很大程度上取决于您是否要保留原始 PDF 的格式(即段落和其他布局元素)。

如果您正在考虑商业解决方案,我们确实提供两种可能满足您要求的产品。一种是 EasyPDF SDK,它具有单次 ExtractText() 和 ExtractText2() 调用,可以将文本从 PDF 中提取为纯文本。

请注意,这些调用的输出非常简单,您将丢失很多原始布局元素。它们非常适合简单的文本提取,但如果您的 PDF 包含表格数据,则可能不太好。

如果您正在处理表格,更好的选择可能是将其作为富文本提取。我们有一个名为 EasyConverter SDK 的工具,专门用于商业文档,只需使用单个函数调用即可完成此操作。

使用 EasyConverter SDK,将保留原始 PDF 的布局。

两者都支持 C#,因此如果您有兴趣,请随时在 www.pdfonline.com 上查看评估版本。我确实为供应商工作,所以请像母亲爱自己的孩子一样接受这个建议:-) 我已经在 stackoverflow.com 上浏览代码片段很长时间了,但最近才开始发布,所以如果您有如果对任一 API 有任何疑问,请告诉我,我可以提供帮助。干杯!


1
投票

Docotic.Pdf库可以从PDF文件中提取文本和图像。

您可以从整个文档或仅从某些页面中提取文本。该库可以提取纯文本以及带有坐标的文本块。

您可以从 PDF 中提取图像(JPEG 和 TIFF 文件)。

这里有一些适合您任务的示例:

免责声明:我为 Bit Miracle 工作,该库的供应商。


0
投票

我们在工作中使用snowbound软件进行图像转换。它显然也支持文本提取。但是,它不是免费的。

© www.soinside.com 2019 - 2024. All rights reserved.