如何构建一个基于 PDF 文件 url 返回 TextFragmentCollection 的函数?

问题描述 投票:0回答:0

我已经有一个可搜索的 pdf,但我想将它转换成带有数字文本的 pdf...我已经得到了代码,但不幸的是,没有方法 GetTextFragment..我一直在 itext7、Aspose 和 iTextSharp 中寻找它,他们都没有这个..因此,我想知道是否有一种方法可以获取 TextFragmentCollection,其中源文件作为参数

这是我测试过的代码之一,我需要 GetTextFragment()..

using System;
using Aspose.Pdf;
using Aspose.Pdf.Text;

public static void PDFSearchableToPDFNormal(String filename, String des_filename){
            Document pdfDocument = new Document(filename);

            Document newDocument = new Document();

            foreach (Page pdfPage in pdfDocument.Pages)
            {
                Page newPage = newDocument.Pages.Add();
                //There is no GetTextFragment() in Page definition, Is there any alternative ways?
                TextFragmentCollection textFragments = pdfPage.GetTextFragments();

                foreach (TextFragment textFragment in textFragments)
                {
                    TextFragment newTextFragment = new TextFragment(textFragment.Text);
                    newTextFragment.Position = textFragment.Position;
                    newPage.Paragraphs.Add(newTextFragment);
                }
            }
            newDocument.Save(des_filename);
}

有什么想法可以检索 pdf 的文本片段集合吗?

我需要另一种方法来获取 pdf 的 TextFragmentCollection,因为 GetTextFragment 不存在。

c# pdf aspose
© www.soinside.com 2019 - 2024. All rights reserved.