使用 PDFBox 提取印地语 PDF 文本

问题描述 投票:0回答:1

所以我试图从 PDF 文件中提取英语和印地语文本。英文文本已正确提取。但是当我尝试提取印地语文本时,一些字符被圆形/正方形替换。 我将印地语文本片段直接从 PDF 文件复制到 Word 文档,并且某些字符得到相同的方块。

PDFBox版本:2.0.7

PDF版本:1.6(Acrobat 7.x)

安全详情(PDF):

字体详细信息:

我无法附加 PDF,但这里是 PDF 文件的片段(Adobe Acrobat Reader)

注意:我画了黑条,因为它包含某人的地址。

使用 PDFBox 提取文本的输出:

पता:कालकाजी,दिणिदी,िदी - 110019

从上面 PDFBox 文本提取的输出中可以看到,一些字符被圆圈替换。当我手动从 PDF 复制到 Word 文档时,也会发生同样的情况。

我也尝试过 tesseract OCR,但这给出了更糟糕的输出。我想知道我可以尝试的其他选择吗?

例如,使用 PDFBox 提取数据,不是文本而是图像?

编辑::还收到以下警告。

03:58:38.711 [main] 警告 o.a.pdfbox.pdmodel.font.PDType0Font - 否 Lohit-Devanagari 字体中 CID+26 (26) 的 Unicode 映射

pdf pdfbox text-extraction
1个回答
0
投票

如果你想从 Aadhaar 卡 pdf 中以文本格式提取本地地址,那是浪费时间, 只需将完整的 pdf 转换为 1600dpi 的图像(这是非常高质量的图像),然后从高质量的 aadhar pdf 图像中裁剪本地地址以及带有出生日期和性别的本地名称。 我也在用这种方法制作aadhar打印软件。

然后从本地地址图像中删除空白并删除白色背景并将其保存为 png 并使用它。这是值得的。 如果您需要任何帮助,请与我联系。 电子邮件:[电子邮件受保护]

© www.soinside.com 2019 - 2024. All rights reserved.