我有一个388页和每页1个表的PDF文档,我试图将它们转换为excel或多个数据帧,但是遇到一些困难,我尝试了pypdf2和tabula库,但仅提取一页后便停止了。数据如下所示:
到目前为止,我获得的最佳结果是>]
import tabula import pandas as pd df= pd.DataFrame() df = tabula.read_pdf("FSA.pdf",multiple_tables=True) tabula.convert_into("FSA.pdf", "fsa_report.csv", output_format="csv",multiple_tables=True) print(df)
但是在完成第1页后会停止吗?有帮助吗?
我有一个388页和每页1个表的PDF文档,我正在尝试将它们转换为excel或多个数据帧,但遇到一些困难,我尝试了pypdf2和tabula库...
df = tabula.read_pdf(file, lattice=True, pages=2, multiple_tables=True)
tabula.convert_into(file, "fsa_report.csv", output_format="csv", pages=3, multiple_tables=True)