使用 C# 将 PDF 转换为可用文本 [已关闭]

3
投票

您尝试过PDFKit.NET吗？它有合理的文档和一些很好的例子。它是为服务器环境设计的，所以有点贵。

编辑这是 SourceForge 上的一个开源库，名为 iTextSharp。对于开源项目来说它是免费的。我还没用过它，但看起来很有希望。这是一个教程，其中有很多代码示例。

1
投票

您可以通过多种方式访问此处——很大程度上取决于您是否要保留原始 PDF 的格式（即段落和其他布局元素）。

如果您正在考虑商业解决方案，我们确实提供两种可能满足您要求的产品。一种是 EasyPDF SDK，它具有单次 ExtractText() 和 ExtractText2() 调用，可以将文本从 PDF 中提取为纯文本。

请注意，这些调用的输出非常简单，您将丢失很多原始布局元素。它们非常适合简单的文本提取，但如果您的 PDF 包含表格数据，则可能不太好。

如果您正在处理表格，更好的选择可能是将其作为富文本提取。我们有一个名为 EasyConverter SDK 的工具，专门用于商业文档，只需使用单个函数调用即可完成此操作。

使用 EasyConverter SDK，将保留原始 PDF 的布局。

两者都支持 C#，因此如果您有兴趣，请随时在 www.pdfonline.com 上查看评估版本。我确实为供应商工作，所以请像母亲爱自己的孩子一样接受这个建议:-) 我已经在 stackoverflow.com 上浏览代码片段很长时间了，但最近才开始发布，所以如果您有如果对任一 API 有任何疑问，请告诉我，我可以提供帮助。干杯！

1
投票

Docotic.Pdf库可以从PDF文件中提取文本和图像。

您可以从整个文档或仅从某些页面中提取文本。该库可以提取纯文本以及带有坐标的文本块。

您可以从 PDF 中提取图像（JPEG 和 TIFF 文件）。

这里有一些适合您任务的示例：

从 PDF 中提取文本
从 PDF 提取图像

免责声明：我为 Bit Miracle 工作，该库的供应商。

0
投票

我们在工作中使用snowbound软件进行图像转换。它显然也支持文本提取。但是，它不是免费的。

问题描述投票：0回答：4

4个回答

最新问题

使用 C# 将 PDF 转换为可用文本 [已关闭]

问题描述 投票：0回答：4

4个回答

最新问题

问题描述投票：0回答：4