内容解码问题|尝试额外的pdf文本

Question

您好，我遇到了一个没有找到解决方案的问题，那就是当我在浏览器中打开pdf文件时，它工作正常并且阿拉伯文本语言是可以理解的，但是当我尝试提取阿拉伯语时通过 pypdf 库的语言，阿拉伯语无法理解，我的 Firefox 浏览器的结果看起来不错，没有问题

但是当我尝试使用 python 附加文本时，它看起来像这样：

我尝试了各种解决方案，例如使用 utf8、latin1 和 iso 编码

这是我的代码：

    from pypdf import PdfReader
    path=f'test.pdf'

    
    render=PdfReader(path,strict=False)

    for page in render.pages:
            text=page.extract_text()
            print(text)

我的文件 test.pdf

Answer 1

感谢您提供的示例，但正如您在屏幕截图中所示，可提取的文本不是阿拉伯语，它的纯文本编码很差。

如果我们使用编辑器查找源字符，我们可以看到它是阿拉伯语，但顺序错误，是纯替换的 Arial 文本。

更深入地观察，我们发现它应该很好地映射到屏幕或打印机生成。

ABCDEE+Arial,Bold/Encoding/Identity-H/DescendantFonts[24 0 R]/ToUnicode 23 0 R

但是，当我们尝试使用 Adobe Acrobat Export 并应用 Arial 阿拉伯语时，我们会发现它处理得不好。

那么什么是可能的？

通常我建议尝试 PDFtotext，但我当前的设置根本无法显示任何对这些区域有意义的内容。

即使我们能够通过剪切和粘贴来导出。主要障碍是它似乎是像 L2R（从左到右）文本一样存储的。

即使导出为Word似乎也有问题

内容解码问题|尝试额外的pdf文本

问题描述投票：0回答：1

1个回答

最新问题

内容解码问题|尝试额外的pdf文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1