我已经有一个可搜索的 pdf,但我想将它转换成带有数字文本的 pdf...我已经得到了代码,但不幸的是,没有方法 GetTextFragment..我一直在 itext7、Aspose 和 iTextSharp 中寻找它,他们都没有这个..因此,我想知道是否有一种方法可以获取 TextFragmentCollection,其中源文件作为参数
这是我测试过的代码之一,我需要 GetTextFragment()..
using System;
using Aspose.Pdf;
using Aspose.Pdf.Text;
public static void PDFSearchableToPDFNormal(String filename, String des_filename){
Document pdfDocument = new Document(filename);
Document newDocument = new Document();
foreach (Page pdfPage in pdfDocument.Pages)
{
Page newPage = newDocument.Pages.Add();
//There is no GetTextFragment() in Page definition, Is there any alternative ways?
TextFragmentCollection textFragments = pdfPage.GetTextFragments();
foreach (TextFragment textFragment in textFragments)
{
TextFragment newTextFragment = new TextFragment(textFragment.Text);
newTextFragment.Position = textFragment.Position;
newPage.Paragraphs.Add(newTextFragment);
}
}
newDocument.Save(des_filename);
}
有什么想法可以检索 pdf 的文本片段集合吗?
我需要另一种方法来获取 pdf 的 TextFragmentCollection,因为 GetTextFragment 不存在。