我有两个数据框。
df = pd.DataFrame([[1,2,3,[4,5]],[6,7,8,[9,10]]], columns=['a','b','c','d'])
df2 = pd.DataFrame([[4,'abc'],[5,'ef'], [10,'g'], [12,'hijk']], columns=['a_2','b_2'])
In [151]: df
Out[151]:
a b c d
0 1 2 3 [4, 5]
1 6 7 8 [9, 10]
In [152]: df2
Out[152]:
a_2 b_2
0 4 abc
1 5 ef
2 10 g
3 12 hijk
我想根据 df 的“d”列合并两者并得到以下输出 -
df3 = pd.DataFrame([[1,2,3,[4,5],['abc','ef']],[6,7,8,[9,10],['g']]], columns=['a','b','c','d','b_2'])
In [153]: df3
Out[153]:
a b c d b_2
0 1 2 3 [4, 5] [abc, ef]
1 6 7 8 [9, 10] [g]
我确实尝试过“合并”,但没有得到所需的结果。
这不完全是一个合并问题,但我会使用调用 Series.get
:
的列表理解来做到这一点
s = df2.set_index('a_2')['b_2'] # mapping to use
[[s.get(y) for y in x if y in s] for x in df['d']]
# [['abc', 'ef'], ['g']]
# df['b_2'] = [[s.get(y) for y in x if y in s] for x in df['d']]
df3 = df.assign(b_2=[[s.get(y) for y in x if y in s] for x in df['d']])
df3
a b c d b_2
0 1 2 3 [4, 5] [abc, ef]
1 6 7 8 [9, 10] [g]
证据表明考虑到问题的不可向量化性质,列表推导式应该相当快。
col1=df1.apply(lambda ss:df2.query("a_2 in @ss.d").b_2.tolist(),1)
df1.assign(b_2=col1)
:
┌───────┬───────┬───────┬───────┬─────────┬───────────┐
│ index │ a │ b │ c │ d │ b_2 │
│ int64 │ int64 │ int64 │ int64 │ int32[] │ varchar[] │
├───────┼───────┼───────┼───────┼─────────┼───────────┤
│ 0 │ 1 │ 2 │ 3 │ [4, 5] │ [abc, ef] │
│ 1 │ 6 │ 7 │ 8 │ [9, 10] │ [g] │
└───────┴───────┴───────┴───────┴─────────┴───────────┘