使用PyPDF2检测PDF中的嵌入式子集字体

Question

我已经使用PyPDF2修改了以下脚本，以遍历PDF并确定PDF是否包含未嵌入的字体。它用于找出PDF中所有字体的列表以及嵌入的字体。但是，某些PDF具有仅嵌入所使用字体的子集的字体（请参见https://blogs.mtu.edu/gradschool/2010/04/27/how-to-determine-if-fonts-are-embedded/）-如何确定PDF中是否嵌入了字体的子集？谢谢！

from PyPDF2 import PdfFileReader
import sys

fontkeys = set(['/FontFile', '/FontFile2', '/FontFile3'])

def walk(obj, fnt, emb):
    if '/BaseFont' in obj:
        fnt.add(obj['/BaseFont'])

    elif '/FontName' in obj and fontkeys.intersection(set(obj)):
        emb.add(obj['/FontName'])

    for k in obj:
        if hasattr(obj[k], 'keys'):
            walk(obj[k], fnt, emb)
        if type(obj) == PyPDF2.generic.ArrayObject:  # You can also do ducktyping here
            for i in obj:
                if hasattr(i, 'keys'):
                    walk(i, all_fonts, embedded_fonts)


    return fnt, emb

if __name__ == '__main__':
    fname = sys.argv[1]
    pdf = PdfFileReader(fname)
    fonts = set()
    embedded = set()

    for page in pdf.pages:
        obj = page.getObject()
        f, e = walk(obj['/Resources'], fonts, embedded)
        fonts = fonts.union(f)
        embedded = embedded.union(e)

    unembedded = fonts - embedded
    print 'Font List'
    pprint(sorted(list(fonts)))
    if unembedded:
        print '\nUnembedded Fonts'
        pprint(unembedded)

Answer 1

按照惯例，PDF文件中子字体的PostScript名称具有以XXXXXX +开头的名称，其中'X'是任何大写ASCII字符。

请参阅《 PDF参考手册（第1.7版）》第5.3节

另外，字体描述符中存在CharSet或CIDSet可以用来指示子集字体（这两者都是可选的。

但是，所有这些都是'约定'，没有实际的保证方法来确保not具有所有这些约定的字体实际上不是子字体。

使用PyPDF2检测PDF中的嵌入式子集字体

问题描述投票：0回答：1

1个回答

最新问题

使用PyPDF2检测PDF中的嵌入式子集字体

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1