使用 PDFBox 提取印地语 PDF 文本

所以我试图从 PDF 文件中提取英语和印地语文本。英文文本已正确提取。但是当我尝试提取印地语文本时，一些字符被圆形/正方形替换。我将印地语文本片段直接从 PDF 文件复制到 Word 文档，并且某些字符得到相同的方块。

PDFBox版本：2.0.7

PDF版本：1.6(Acrobat 7.x)

安全详情（PDF）：

字体详细信息：

我无法附加 PDF，但这里是 PDF 文件的片段（Adobe Acrobat Reader）。

注意：我画了黑条，因为它包含某人的地址。

使用 PDFBox 提取文本的输出:

पता：कालकाजी，दिणिदी，िदी - 110019

从上面 PDFBox 文本提取的输出中可以看到，一些字符被圆圈替换。当我手动从 PDF 复制到 Word 文档时，也会发生同样的情况。

我也尝试过 tesseract OCR，但这给出了更糟糕的输出。我想知道我可以尝试的其他选择吗？

例如，使用 PDFBox 提取数据，不是文本而是图像？

编辑：：还收到以下警告。

03:58:38.711 [main] 警告 o.a.pdfbox.pdmodel.font.PDType0Font - 否 Lohit-Devanagari 字体中 CID+26 (26) 的 Unicode 映射

0
投票

如果你想从 Aadhaar 卡 pdf 中以文本格式提取本地地址，那是浪费时间，只需将完整的 pdf 转换为 1600dpi 的图像（这是非常高质量的图像），然后从高质量的 aadhar pdf 图像中裁剪本地地址以及带有出生日期和性别的本地名称。我也在用这种方法制作aadhar打印软件。

然后从本地地址图像中删除空白并删除白色背景并将其保存为 png 并使用它。这是值得的。如果您需要任何帮助，请与我联系。电子邮件：[电子邮件受保护]