我有一个大型的pdf文档,其中包含多个记录。每条记录通常占用一页,而有些则使用2页。记录以已定义的文本开头,始终相同。
我的目标是将此pdf拆分为多个单独的pdf,并且拆分应始终在找到“标题文本”之前进行。
是的,有可能。
[看看TikaOnDotnet.TextExtractor,它是Tika文本提取Java库的包装。
您可以像这样轻松地从pdf获取数据:
var text = new TextExtractor().Extract(file.FullName).Text;
docs: https://github.com/KevM/tikaondotnet
nuget: https://www.nuget.org/packages/TikaOnDotnet.TextExtractor/
您也可以使用itext7
docs: https://api.itextpdf.com/iText7/dotnet/7.1.9/index.html