是否可以使用C#根据文本将PDF拆分为单独的文件?

问题描述 投票:0回答:1

我有一个大型的pdf文档,其中包含多个记录。每条记录通常占用一页,而有些则使用2页。记录以已定义的文本开头,始终相同。

我的目标是将此pdf拆分为多个单独的pdf,并且拆分应始终在找到“标题文本”之前进行。

c# asp.net
1个回答
0
投票

是的,有可能。

TikaOnDotnet

[看看TikaOnDotnet.TextExtractor,它是Tika文本提取Java库的包装。

您可以像这样轻松地从pdf获取数据:

var text = new TextExtractor().Extract(file.FullName).Text;

docs: https://github.com/KevM/tikaondotnet

nuget: https://www.nuget.org/packages/TikaOnDotnet.TextExtractor/


itext7

您也可以使用itext7

docs: https://api.itextpdf.com/iText7/dotnet/7.1.9/index.html

nuget: https://www.nuget.org/packages/itext7/

© www.soinside.com 2019 - 2024. All rights reserved.