pdf 使用 pypdf 提取表单数据:如何只获取键+值?

问题描述 投票:0回答:0

我不是 python 大师(习惯于 R)。

我使用 pypdf 包 (v3.4.1) 从我创建并用 acrobat 填充的 pdf 表单中提取数据。

我可以阅读表单字段

f = PdfReader('test_formulaire.pdf')
ffields = f.get_fields()

ffields 是一个大小为 3 的字典对象(3 个键:'a1'、'a2'、'a5')。 dict 的每个“键”都是一个 Field 类对象。

我可以使用 print(ffields['a1'].value)

访问键的值

我现在想创建一个 pandas 数据框,其中包含字段的每个键的列(3 列,以键名命名)和包含每个键的值的行...

有什么快速简单的方法吗?

我可以用类似的列名创建一个空数据框(可能远非最佳):

column_names = ["" for x in range(len(ffields))]
idx=0
for i in ffields:
    column_names[idx]=i
    idx+=1

data = pd.DataFrame(columns=column_names)

用其他 for 循环填充它应该是可能的,但它看起来很难看......(请注意,一些值是数字,其他值是字符串)。

有没有人能有效地做到这一点。

提前致谢

python pandas dictionary field pypdf
© www.soinside.com 2019 - 2024. All rights reserved.