内容解码问题|尝试额外的pdf文本

问题描述 投票:0回答:1

您好,我遇到了一个没有找到解决方案的问题,那就是当我在浏览器中打开pdf文件时,它工作正常并且阿拉伯文本语言是可以理解的,但是当我尝试提取阿拉伯语时通过 pypdf 库的语言,阿拉伯语无法理解,我的 Firefox 浏览器的结果看起来不错,没有问题

但是当我尝试使用 python 附加文本时,它看起来像这样

我尝试了各种解决方案,例如使用 utf8、latin1 和 iso 编码

这是我的代码:

    from pypdf import PdfReader
    path=f'test.pdf'

    
    render=PdfReader(path,strict=False)

    for page in render.pages:
            text=page.extract_text()
            print(text)
    

我的文件 test.pdf

python pdf arabic pypdf
1个回答
0
投票

感谢您提供的示例,但正如您在屏幕截图中所示,可提取的文本不是阿拉伯语,它的纯文本编码很差。

如果我们使用编辑器查找源字符,我们可以看到它是阿拉伯语,但顺序错误,是纯替换的 Arial 文本。

更深入地观察,我们发现它应该很好地映射到屏幕或打印机生成。

ABCDEE+Arial,Bold/Encoding/Identity-H/DescendantFonts[24 0 R]/ToUnicode 23 0 R

但是,当我们尝试使用 Adobe Acrobat Export 并应用 Arial 阿拉伯语时,我们会发现它处理得不好。

那么什么是可能的?

通常我建议尝试 PDFtotext,但我当前的设置根本无法显示任何对这些区域有意义的内容。

即使我们能够通过剪切和粘贴来导出。主要障碍是它似乎是像 L2R(从左到右)文本一样存储的。

即使导出为Word似乎也有问题

© www.soinside.com 2019 - 2024. All rights reserved.