我已经遍历了两个 HTML 文件(这两个文件有一些相似的列/标题,一个文件有额外的列,截图如下)。我想将所有内容加载到一个数据框中,然后将其导出到 excel 或 csv。但是,当我导出时,我只能看到来自一个 HTML 文件的记录。就我而言,我只看到 collection_item_shorterned.html 文件中的记录。
代码:
import os
import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 5000)
yelp_path = os.path.join('..','data_files','yelp\\',)
print(f"printing path: {yelp_path}")
dir = os.listdir(yelp_path)
print(f"print dir: {dir}")
for i in range(len(dir)):
data = pd.read_html(yelp_path + dir[i])
dataframe = pd.concat(data)
print(dataframe)
dataframe.to_excel("combined_yelp_data.xlsx", index=False)