如何构建一个基于 PDF 文件 url 返回 TextFragmentCollection 的函数？

Question

我已经有一个可搜索的 pdf，但我想将它转换成带有数字文本的 pdf...我已经得到了代码，但不幸的是，没有方法 GetTextFragment..我一直在 itext7、Aspose 和 iTextSharp 中寻找它，他们都没有这个..因此，我想知道是否有一种方法可以获取 TextFragmentCollection，其中源文件作为参数

这是我测试过的代码之一，我需要 GetTextFragment()..

using System;
using Aspose.Pdf;
using Aspose.Pdf.Text;

public static void PDFSearchableToPDFNormal(String filename, String des_filename){
            Document pdfDocument = new Document(filename);

            Document newDocument = new Document();

            foreach (Page pdfPage in pdfDocument.Pages)
            {
                Page newPage = newDocument.Pages.Add();
                //There is no GetTextFragment() in Page definition, Is there any alternative ways?
                TextFragmentCollection textFragments = pdfPage.GetTextFragments();

                foreach (TextFragment textFragment in textFragments)
                {
                    TextFragment newTextFragment = new TextFragment(textFragment.Text);
                    newTextFragment.Position = textFragment.Position;
                    newPage.Paragraphs.Add(newTextFragment);
                }
            }
            newDocument.Save(des_filename);
}

有什么想法可以检索 pdf 的文本片段集合吗？

我需要另一种方法来获取 pdf 的 TextFragmentCollection，因为 GetTextFragment 不存在。

如何构建一个基于 PDF 文件 url 返回 TextFragmentCollection 的函数？

问题描述投票：0回答：0

最新问题

如何构建一个基于 PDF 文件 url 返回 TextFragmentCollection 的函数？

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0