PDF 规范。语言需要能够方便地阅读 <.......> Tj

Question

需要检查文本是否真的符合预期，但发现未压缩的PDF obj 人类无法阅读

 BT
 /F4 32 Tf
 1 0 0 -1 32 31 Tm
 <003900030027005200460058005000480051005700440057004C00520051> Tj
 ET

即使将其转换为 Ascii/UTF-8 后，仍为纯英文文本，例如通过

$  xxd -r -ps <<<'003900030027005200460058005000480051005700440057004C00520051'
9'RFXPHQWDWLRQ

那么如何从此类 PDF 规范中获取 PDF 上打印的真实文本呢？ lang.，所以可以方便地追踪任何未压缩的PDF，PDF文本内容的实际工作机制是怎样的？

编辑

/F4 追踪到是

<< /BaseFont /AAAAAA+Arial-BoldMT /DescendantFonts [ 14 0 R ] /Encoding /Identity-H /Subtype
        /Type0 /ToUnicode 412 0 R /Type /Font >>

希望能给大家带来帮助

Answer 1

这是所有重新编码中最常见的，因为它可能是当前文档中最常用的字体。

奇怪的是，您的示例也是因其长度而受到质疑的最常见示例之一。

我之前解释过的答案是，很容易通过人眼和婴儿床以编程方式解码。您只需要一个电子表格（例如 Xcel.XlsX）即可。

这是您的开场白和答案。