如何使用 Spire.PDF 读取 pdf 文件并将内容保存到文本文件? 例如:这是一个 pdf 文件,这是该 pdf 中的 所需文本文件
我尝试使用下面的代码来读取文件并将其保存到文本文件
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(@"C:\Users\Tamal\Desktop\101395a.pdf");
StringBuilder buffer = new StringBuilder();
foreach (PdfPageBase page in doc.Pages)
{
buffer.Append(page.ExtractText());
}
doc.Close();
String fileName = @"C:\Users\Tamal\Desktop\101395a.txt";
File.WriteAllText(fileName, buffer.ToString());
System.Diagnostics.Process.Start(fileName);
但是
输出文本文件的格式不正确。它有不必要的空格,一个完整的段落被分成多行等等。
如何获得所需文本文件中所需的结果?
此外,还可以检测和标记(如添加标签)粗体、斜体或下划线形式的文本吗?对于具有多列文本的页面,事情也会变得更加成问题。
iText
File inputFile = new File("input.pdf");
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile));
SimpleTextExtractionStrategy stes = new SimpleTextExtractionStrategy();
PdfCanvasProcessor canvasProcessor = new PdfCanvasProcessor(stes);
canvasProcessor.processPageContent(pdfDocument.getPage(1));
System.out.println(stes.getResultantText());
这是(如代码所示)基本/简单的文本提取策略。 可以在文档中找到更高级的示例。