Apache PDFBox删除字符之间的空格

问题描述 投票:6回答:1

我们正在使用PDFBox从PDF提取文本。

某些PDF的文本无法正确提取。下图将PDF的一部分显示为图像:

<< img src =“ https://image.soinside.com/eyJ1cmwiOiAiaHR0cHM6Ly9pLnN0YWNrLmltZ3VyLmNvbS95eHBNWi5wbmcifQ==” alt =“在此处输入图像说明”>“ >>

提取文本后,我们得到以下文本:3,8 5欧盟R 1内托38,50 EUR 4,00(在','和'8'之间添加空格)

这是我们的代码:

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);

[我们尝试使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有积极作用。

替代库'iText'正确提取文本,字符之间没有空格。但是由于许可证问题,我们无法使用它。

有什么想法吗?谢谢。

EDIT:

我们正在使用1.8.9版。我们也尝试了快照版本2.0.0,但没有任何效果。

我们正在使用PDFBox从PDF提取文本。某些PDF的文本无法正确提取。下图以PDF格式显示了PDF的一部分:提取文本后,我们得到以下文本:...

pdfbox text-extraction pdf-parsing
1个回答
7
投票

原因

© www.soinside.com 2019 - 2024. All rights reserved.