[合并两个熊猫DataFrame时如何将行“配对”并合并成一个?

问题描述 投票:0回答:1

预先道歉,可能会合并以前的问题/主题。我在很多相关文章上花费了很多时间,并相信我迷失在最佳的使用方法中。问题是:

我有两个维数相同,列名称和索引相等的Pandas DataFrame。它们都源自单独的SQL查找。我有第三个DataFrame作为字典,因此我可以使用连接/合并操作来填充原始两个DataFrame中的每个中的空列。一旦完成,并且两个DataFrames中的列都已满,我想将它们缝合在一起,以便将两个对应的条目合并到一个统一DataFrame中的一行,而不是每个DataFrame中的一行。显然,列名冲突是问题的一部分。这是一个表示形式:

    frame1
Out[87]: 
   matchupid   primary    geo
0      27812  student1   east
1      91876  student3   east
2      65019  student5   west
3      21632  student7  south
frame2
Out[88]: 
   matchupid   primary      geo
0      27812  student2     west
1      91876  student4  central
2      65019  student6    north
3      21632  student8     east

省去了控制指令以节省帖子的空间,这是将每个框架合并到字典框架时得到的结果。 到目前为止,这里的结果对我来说是正确的:

a1 = frame1.merge(dictFrame, on="primary")
a1
Out[70]: 
   matchupid   primary    geo  matchup q1_res q2_res
0      27812  student1   east    27812   fail   41.2
1      91876  student3   east    91876   78.2   pass
2      65019  student5   west    65019  defer    107
3      21632  student7  south    21632  210.4   fail
a2 = frame2.merge(dictFrame, on="primary")
a2
Out[72]: 
   matchupid   primary      geo  matchup q1_res q2_res
0      27812  student2     west    27812  defer   fail
1      91876  student4  central    91876  104.2  defer
2      65019  student6    north    65019   92.2   91.4
3      21632  student8     east    21632   pass   pass
a3 = pd.concat([a1, a2])
a3
Out[75]: 
   matchupid   primary      geo  matchup q1_res q2_res
0      27812  student1     east    27812   fail   41.2
1      91876  student3     east    91876   78.2   pass
2      65019  student5     west    65019  defer    107
3      21632  student7    south    21632  210.4   fail
0      27812  student2     west    27812  defer   fail
1      91876  student4  central    91876  104.2  defer
2      65019  student6    north    65019   92.2   91.4
3      21632  student8     east    21632   pass   pass

现在,所需的状态看起来像这样(由于我实际上无法弄清楚该怎么做,所以有点作弊:))。 未实现-这是所需的结果:

Out[97]: 
   matchupid   primary q1_res q2_res secondary secondary_q1res secondary_q2res
0      27812  student1   fail   41.2      student2        defer         fail
1      91876  student3   78.2   pass      student4        104.2         defer
2      65019  student5  defer    107      student6        92.2          91.4
3      21632  student7  210.4   fail      student8        pass          pass

我已经尝试了几种不同的方法,并且很好奇索引和匹配IP相同的事实是否会带来一些好处。我认为也许在matchupid上使用groupby可以让我在需要保持的对中工作。如果可行,剩下的任务将是1 /将两行变成一,2 /将它们添加到新的(?)DataFrame中,和3 /更改列名。有人介意建议一种方法或我缺少的链接吗?预先感谢!

grouped = a3.groupby('matchupid')
grouped.get_group(21632)
Out[109]: 
   matchupid   primary q1_res q2_res
3      21632  student7  210.4   fail
3      21632  student8   pass   pass
python pandas dataframe pandas-groupby
1个回答
0
投票

看来这是pd.concat(axis=1)的工作,是“水平”串联:

# Create a temporary DataFrame from a2 with correct column names
temp = a2.rename(columns={'primary': 'secondary', 
                          'q1_res':'secondary_q1res',
                          'q2_res':'secondary_q2res'})
temp = temp.drop(columns=['matchup', 'geo'])

# Horizontally concat with relevant columns of a1
a3 = pd.concat([a1.drop(columns=['matchup', 'geo']), temp], axis=1)
© www.soinside.com 2019 - 2024. All rights reserved.