字体的CID编码

字体的CID编码

问题描述投票：0回答：1

我正在尝试使用 python 从 pdf 中提取文本。我尝试过的软件包都无法读取它（PyPDF2、pdfminer、fitz 等），但其中一些软件包可以返回我 cid 编码。（例如（cid：3））。

现在我以“暴力”方式读取文件，这意味着我设法从一些示例中找到了 cid 解码。（该笔记本可以在 kaggle 上找到here。）

我在网上搜索了优雅的方法，发现很多提到Registry-Ordering-Suplement以及如何通过了解font找到编码。

虽然 fitz 无法解释文本，但它说字体是 CourierNewPSMT。现在即使有了这些信息，我也找不到 ROS 信息/ CID 编码/ CID 映射/ CID 集合。

有人可以告诉我，如何解释 cid 编码文本，知道字体吗？

python

pdf

fonts

pdf-extraction

1个回答

0
投票

nup_encoded.pdf - PF 文件中的文本未准备用于文本提取，字体缺少 ToUnicode cmap。

文本使用实际字形索引而不是字符代码显示。您在 PDF 中看到的字母“A”是“在索引 1 处显示字形图像”，其中字形图像是字母“A”的矢量图形。该字体不包括 ToUnicode cmap，它提供字形索引 1 和字母“A”之间的映射，因为此结构仅用于文本提取，而不用于文本显示。

“ROS 信息/ CID 编码/ CID 映射/ CID 集合”在这里对您没有帮助。