PDF 规范。语言需要能够方便地阅读 <.......> Tj

问题描述 投票:0回答:1

需要检查文本是否真的符合预期,但发现未压缩的PDF obj 人类无法阅读

 BT
 /F4 32 Tf
 1 0 0 -1 32 31 Tm
 <003900030027005200460058005000480051005700440057004C00520051> Tj
 ET

即使将其转换为 Ascii/UTF-8 后,仍为纯英文文本,例如通过

$  xxd -r -ps <<<'003900030027005200460058005000480051005700440057004C00520051'
9'RFXPHQWDWLRQ

那么如何从此类 PDF 规范中获取 PDF 上打印的真实文本呢? lang.,所以可以方便地追踪任何未压缩的PDF,PDF文本内容的实际工作机制是怎样的?

编辑

/F4 追踪到是

<< /BaseFont /AAAAAA+Arial-BoldMT /DescendantFonts [ 14 0 R ] /Encoding /Identity-H /Subtype
        /Type0 /ToUnicode 412 0 R /Type /Font >>

希望能给大家带来帮助

pdf
1个回答
0
投票

这是所有重新编码中最常见的,因为它可能是当前文档中最常用的字体。

奇怪的是,您的示例也是因其长度而受到质疑的最常见示例之一。

我之前解释过的答案是,很容易通过人眼和婴儿床以编程方式解码。您只需要一个电子表格(例如 Xcel.XlsX)即可。

这是您的开场白和答案。

0039 V
0003 
0027 D
0052 o
0046 c
0058 u
0050 m
0048 e
0051 n
0057 t
0044 a
0057 t
004C i
0052 o
0051 n
© www.soinside.com 2019 - 2024. All rights reserved.