将具有多个页面的多个.pdf文件转换为1个单个.csv文件

问题描述 投票:0回答:1

我正在尝试将.pdf数据转换为电子表格。根据一些研究,一些人建议先将其转换为csv以避免错误。

所以,我做了下面的编码,这给了我:“ TypeError:无法连接类型为”的对象;仅Series和DataFrame objs有效”

错误出现在'pd.concat'命令上。

'''

import tabula
import pandas as pd
import glob


path = r'C:\Users\REC.AC'
all_files = glob.glob(path + "/*.pdf")
print (all_files)

df = pd.concat(tabula.read_pdf(f1) for f1 in all_files)
df.to_csv("output.csv", index = False)

'''

python-3.x pandas dataframe tabula
1个回答
0
投票

由于这可能是一个常见问题,所以我将发布找到的解决方案。

“”“

df = []

for f1 in all_files:
    df = pd.concat(tabula.read_pdf(f1))

“”“

[我相信将项目迭代分成两部分会生成所需的数据框,因此可以正常工作。

© www.soinside.com 2019 - 2024. All rights reserved.