PDFBOX for Persian文件

问题描述 投票:2回答:1

我想使用pdfBox从波斯语pdf文件中提取测试,但它返回所有波斯语字符的"?"(它在同一文档中正确返回拉丁文字)。

我该如何解决?有什么建议?

java pdf pdfbox arabic persian
1个回答
1
投票

遗憾的是,提供的文件将波斯文本作为矢量图形,而不是字体中的文本,因此无法提取。你必须使用OCR。

另见text extraction FAQ

为什么我没有从PDF文档中获取任何文本?

从pdf文档中提取文本是一项复杂的任务,并且涉及许多因素会影响文本提取的可能性和准确性。如果您可以尝试一些事情,对PDFBox团队会有所帮助。

在Acrobat中打开PDF并尝试从那里提取文本。如果Acrobat可以提取文本,那么PDFBox也应该能够,如果它不能,它就是一个bug。如果Acrobat无法提取文本,那么PDFBox'可能'也不能。

它可能真的是图像而不是文本。某些PDF文档只是已扫描的图像。您可以使用Acrobat中的选择工具来判断,如果您无法选择任何文本,那么它可能是图像。

© www.soinside.com 2019 - 2024. All rights reserved.