需要检查文本是否真的符合预期,但发现未压缩的PDF obj 人类无法阅读
BT
/F4 32 Tf
1 0 0 -1 32 31 Tm
<003900030027005200460058005000480051005700440057004C00520051> Tj
ET
即使将其转换为 Ascii/UTF-8 后,仍为纯英文文本,例如通过
$ xxd -r -ps <<<'003900030027005200460058005000480051005700440057004C00520051'
9'RFXPHQWDWLRQ
那么如何从此类 PDF 规范中获取 PDF 上打印的真实文本呢? lang.,所以可以方便地追踪任何未压缩的PDF,PDF文本内容的实际工作机制是怎样的?
/F4 追踪到是
<< /BaseFont /AAAAAA+Arial-BoldMT /DescendantFonts [ 14 0 R ] /Encoding /Identity-H /Subtype
/Type0 /ToUnicode 412 0 R /Type /Font >>
希望能给大家带来帮助
这是所有重新编码中最常见的,因为它可能是当前文档中最常用的字体。
奇怪的是,您的示例也是因其长度而受到质疑的最常见示例之一。
我之前解释过的答案是,很容易通过人眼和婴儿床以编程方式解码。您只需要一个电子表格(例如 Xcel.XlsX)即可。
这是您的开场白和答案。
0039 V
0003
0027 D
0052 o
0046 c
0058 u
0050 m
0048 e
0051 n
0057 t
0044 a
0057 t
004C i
0052 o
0051 n