Apache PDFBox删除字符之间的空格

Question

我们正在使用PDFBox从PDF提取文本。

某些PDF的文本无法正确提取。下图将PDF的一部分显示为图像：

<< img src =“ https://image.soinside.com/eyJ1cmwiOiAiaHR0cHM6Ly9pLnN0YWNrLmltZ3VyLmNvbS95eHBNWi5wbmcifQ==” alt =“在此处输入图像说明”>“ >>

提取文本后，我们得到以下文本：3，8 5欧盟R 1内托38,50 EUR 4,00（在'，'和'8'之间添加空格）

这是我们的代码：

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);
[我们尝试使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有积极作用。

替代库'iText'正确提取文本，字符之间没有空格。但是由于许可证问题，我们无法使用它。

有什么想法吗？谢谢。

EDIT：

我们正在使用1.8.9版。我们也尝试了快照版本2.0.0，但没有任何效果。

我们正在使用PDFBox从PDF提取文本。某些PDF的文本无法正确提取。下图以PDF格式显示了PDF的一部分：提取文本后，我们得到以下文本：...

Answer 1

7
投票

Apache PDFBox删除字符之间的空格

问题描述投票：6回答：1

1个回答

原因

最新问题

Apache PDFBox删除字符之间的空格

问题描述 投票：6回答：1

1个回答

原因

最新问题

问题描述投票：6回答：1