将PDF文档转换为DataFrame

问题描述投票：-1回答：1

我有一个388页和每页1个表的PDF文档，我试图将它们转换为excel或多个数据帧，但是遇到一些困难，我尝试了pypdf2和tabula库，但仅提取一页后便停止了。数据如下所示：

所有页面相同，但行业名称和编号不同

到目前为止，我获得的最佳结果是>]

import tabula
import pandas as pd

df= pd.DataFrame()
df = tabula.read_pdf("FSA.pdf",multiple_tables=True)

tabula.convert_into("FSA.pdf", "fsa_report.csv", output_format="csv",multiple_tables=True)
print(df)
但是在完成第1页后会停止吗？有帮助吗？

我有一个388页和每页1个表的PDF文档，我正在尝试将它们转换为excel或多个数据帧，但遇到一些困难，我尝试了pypdf2和tabula库...

python pandas pdf pypdf2 tabula

1个回答

2
投票

df = tabula.read_pdf(file, lattice=True, pages=2, multiple_tables=True)
tabula.convert_into(file, "fsa_report.csv", output_format="csv", pages=3, multiple_tables=True)

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.