我们正在使用PDFBox从PDF提取文本。
某些PDF的文本无法正确提取。下图将PDF的一部分显示为图像:
<< img src =“ https://image.soinside.com/eyJ1cmwiOiAiaHR0cHM6Ly9pLnN0YWNrLmltZ3VyLmNvbS95eHBNWi5wbmcifQ==” alt =“在此处输入图像说明”>“ >>
提取文本后,我们得到以下文本:3,8 5欧盟R 1内托38,50 EUR 4,00(在','和'8'之间添加空格)
这是我们的代码:
PDDocument pdf = PDDocument.load(reuseableInputStream); PDFTextStripper pdfStripper = new PDFTextStripper(); pdfStripper.setSortByPosition(true); String text = pdfStripper.getText(pdf);
[我们尝试使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有积极作用。
替代库'iText'正确提取文本,字符之间没有空格。但是由于许可证问题,我们无法使用它。
有什么想法吗?谢谢。
EDIT:
我们正在使用1.8.9版。我们也尝试了快照版本2.0.0,但没有任何效果。我们正在使用PDFBox从PDF提取文本。某些PDF的文本无法正确提取。下图以PDF格式显示了PDF的一部分:提取文本后,我们得到以下文本:...