熊猫自我加入非独特的价值观

问题描述 投票:1回答:1

我有下表:

       ind_ID  pair_ID orig_data
0           A        1         W 
1           B        1         X
2           C        2         Y
3           D        2         Z
4           A        3         W          
5           C        3         X          
6           B        4         Y          
7           D        4         Z          

每一行都有一个individual_ID和一个与其他一行共用的pair_ID。我想做一个自我连接,以便每一行都有它的原始数据,并且它共享一行pair_ID的行的数据:

       ind_ID  pair_ID orig_data partner_data
0           A        1         W            X
1           B        1         X            W
2           C        2         Y            Z
3           D        2         Z            Y
4           A        3         W            X
5           C        3         X            W
6           B        4         Y            Z
7           D        4         Z            Y

我试过了:

df.join(df, on='pair_ID')

但很明显,因为pair_ID值不是唯一的,我得到:

       ind_ID  pair_ID orig_data partner_data
0           A        1         W          NaN
1           B        1         X          NaN
2           C        2         Y          NaN
3           D        2         Z          NaN
4           A        3         W          NaN
5           C        3         X          NaN
6           B        4         Y          NaN
7           D        4         Z          NaN 

我还想过创建一个连接ind_ID+pair_ID的新列,这个列是唯一的,但是然后连接将不知道要匹配什么。

是否可以在pair_ID上进行自联接,其中每一行都与匹配的行本身连接?

python pandas dataframe
1个回答
3
投票

在你的情况下(只有两对) - 你可能只是基于ID进行分组和变换,只需反转组中值的顺序,例如:

df.loc[:, 'partner_data'] = df.groupby('pair_ID').orig_data.transform(lambda L: L[::-1])

哪个给你:

  ind_ID  pair_ID orig_data partner_ID
0      A        1         W          X
1      B        1         X          W
2      C        2         Y          Z
3      D        2         Z          Y
4      A        3         W          X
5      C        3         X          W
6      B        4         Y          Z
7      D        4         Z          Y
© www.soinside.com 2019 - 2024. All rights reserved.