我已经使用 SNScrape 抓取了 Twitter 回复数据并将相关文件保存为 CSV。当我在 Google 工作表或 VS Code(我用于 Python 编码的文本编辑器)中查看文件时,ID 和对话 ID 没有被截断。但是,当我尝试导入此数据以将单独的文件合并为数据框时,两列都会立即被截断。
我尝试了很多不同的方法,包括我的原始代码:
dir_path = r'C:\Users\clair\venv\tweet_replies'
csv_files = [f for f in os.listdir(dir_path) if f.endswith('.csv')]
dfs = []
for file in csv_files:
df = pd.read_csv(os.path.join(dir_path, file)
dfs.append(df)
merged_df = pd.concat(dfs, ignore_index=True)
print(merged_df)
然后我尝试单独添加文件并使用 dtype 函数更改它们,但这也不起作用。
import pandas as pd
filenames = ['ASF_tweet1.csv', 'ASF_tweet2.csv', etc]
dfs = []
df = pd.read_csv(filename, dtype={'id': 'float64', 'conversationId': 'float64'})
dfs.append(df)
combined_df = pd.concat(dfs, axis=0)
print(combined_df)