仅使用公共列的多个数据帧的pandas.concat

问题描述 投票:2回答:2

我有多个pandas数据框对象cost1,cost2,cost3 ....

  1. 它们具有不同的列名(和列数),但有一些共同点。
  2. 每个数据帧中的列数相当大,因此手动挑选公共列会很痛苦。

如何将所有这些数据框中的行追加到一个数据框中,同时仅保留公共列名称中的元素?

截至目前我有

帧= [COST1,cost2,COST3 ...]

new_combined = pd.concat(frames,ignore_index = True)

这显然包含在所有数据帧中不常见的列。

python pandas dataframe
2个回答
6
投票

你可以在Python的set.intersection中找到常见的列:

common_cols = list(set.intersection(*(set(df.columns) for df in frames)))

要仅使用公共列进行连接,可以使用

pd.concat([df[common_cols] for df in frames], ignore_index=True)

1
投票

对于未来的读者,上述功能可以通过熊猫本身实现。如果在pd.concat中提供join ='inner'参数,Pandas可以在保留公共列的同时连接数据帧。例如

pd.concat(frames,join='inner', ignore_index=True)
© www.soinside.com 2019 - 2024. All rights reserved.