字体的CID编码

问题描述 投票:0回答:1

我正在尝试使用 python 从 pdf 中提取文本。我尝试过的软件包都无法读取它(PyPDF2、pdfminer、fitz 等),但其中一些软件包可以返回我 cid 编码。 (例如(cid:3))。

现在我以“暴力”方式读取文件,这意味着我设法从一些示例中找到了 cid 解码。 (该笔记本可以在 kaggle 上找到here。)

我在网上搜索了优雅的方法,发现很多提到Registry-Ordering-Suplement以及如何通过了解font找到编码。

虽然 fitz 无法解释文本,但它说字体是 CourierNewPSMT。现在即使有了这些信息,我也找不到 ROS 信息/ CID 编码/ CID 映射/ CID 集合。

有人可以告诉我,如何解释 cid 编码文本,知道字体吗?

python pdf fonts pdf-extraction
1个回答
0
投票

nup_encoded.pdf - PF 文件中的文本未准备用于文本提取,字体缺少 ToUnicode cmap。

文本使用实际字形索引而不是字符代码显示。您在 PDF 中看到的字母“A”是“在索引 1 处显示字形图像”,其中字形图像是字母“A”的矢量图形。该字体不包括 ToUnicode cmap,它提供字形索引 1 和字母“A”之间的映射,因为此结构仅用于文本提取,而不用于文本显示。

“ROS 信息/ CID 编码/ CID 映射/ CID 集合”在这里对您没有帮助。

© www.soinside.com 2019 - 2024. All rights reserved.