将两个数据框合并到一列列表上

问题描述 投票:0回答:2

我有两个数据框。

df = pd.DataFrame([[1,2,3,[4,5]],[6,7,8,[9,10]]], columns=['a','b','c','d'])

df2 = pd.DataFrame([[4,'abc'],[5,'ef'], [10,'g'], [12,'hijk']], columns=['a_2','b_2'])

In [151]: df
Out[151]: 
   a  b  c        d
0  1  2  3   [4, 5]
1  6  7  8  [9, 10]

In [152]: df2
Out[152]: 
   a_2   b_2
0    4   abc
1    5    ef
2   10     g
3   12  hijk

我想根据 df 的“d”列合并两者并得到以下输出 -

df3 = pd.DataFrame([[1,2,3,[4,5],['abc','ef']],[6,7,8,[9,10],['g']]], columns=['a','b','c','d','b_2'])


In [153]: df3
Out[153]: 
   a  b  c        d        b_2
0  1  2  3   [4, 5]  [abc, ef]
1  6  7  8  [9, 10]        [g]

我确实尝试过“合并”,但没有得到所需的结果。

python pandas list dataframe merge
2个回答
2
投票

这不完全是一个合并问题,但我会使用调用 Series.get:

列表理解

来做到这一点
s = df2.set_index('a_2')['b_2']  # mapping to use
[[s.get(y) for y in x if y in s] for x in df['d']]
# [['abc', 'ef'], ['g']]

# df['b_2'] = [[s.get(y) for y in x if y in s] for x in df['d']]
df3 = df.assign(b_2=[[s.get(y) for y in x if y in s] for x in df['d']])
df3

   a  b  c        d        b_2
0  1  2  3   [4, 5]  [abc, ef]
1  6  7  8  [9, 10]        [g]

证据表明考虑到问题的不可向量化性质,列表推导式应该相当快。


0
投票
col1=df1.apply(lambda ss:df2.query("a_2 in @ss.d").b_2.tolist(),1)
df1.assign(b_2=col1)

:

┌───────┬───────┬───────┬───────┬─────────┬───────────┐
│ index │   a   │   b   │   c   │    d    │    b_2    │
│ int64 │ int64 │ int64 │ int64 │ int32[] │ varchar[] │
├───────┼───────┼───────┼───────┼─────────┼───────────┤
│     0 │     1 │     2 │     3 │ [4, 5]  │ [abc, ef] │
│     1 │     6 │     7 │     8 │ [9, 10] │ [g]       │
└───────┴───────┴───────┴───────┴─────────┴───────────┘
© www.soinside.com 2019 - 2024. All rights reserved.