给定一个带有多索引列的数据帧(
d
),我想将另一个数据帧(d2
)设置为“多列”之一,这样顶层有一些标签,第二级标签与原文:
nr.seed(0)
abc = ['a', 'b', 'c']
mi = pd.MultiIndex.from_product([['A'], abc])
d = DataFrame(np.random.randint(0, 10, (4, 3)), columns=mi)
d
A
a b c
0 5 0 3
1 3 7 9
2 3 5 2
3 4 7 6
d2 = DataFrame(np.random.randint(0, 10, (4, 3)), columns=abc)
d2
a b c
0 8 8 1
1 6 7 7
2 8 1 5
3 9 8 9
如果可能,我想使用一个内置方法来加入它们,完成以下 forloop:
for c2 in d2:
d['B', c2] = d2[c2]
d
A B
a b c a b c
0 5 0 3 8 8 1
1 3 7 9 6 7 7
2 3 5 2 8 1 5
3 4 7 6 9 8 9
对于具有单级列的 DataFrame:
d3 = d.copy()
d3.columns = d3.columns.droplevel(0)
d3 = d3.rename(columns=dict(zip('abc', 'def')))
d3
d e f
0 5 0 3
1 3 7 9
2 3 5 2
3 4 7 6
我可以做以下事情:
d3[d2.columns] = d2
d3
d e f a b c
0 5 0 3 8 8 1
1 3 7 9 6 7 7
2 3 5 2 8 1 5
3 4 7 6 9 8 9
但是当我使用 MultiIndexed DataFrame 尝试此操作时,我收到错误:
d['B', tuple(d2.columns)] = d2
=> ValueError: Wrong number of items passed 3, placement implies 1
d['B'][tuple(d2.columns)] = d2
=> KeyError: 'B'
有内置方法可以做到这一点吗? (基本上一次对多列执行this)。
更新:
def add_multicolumn(df, df2, new_col_name):
tmp = df2.copy() # make copy, otherwise df2 will be changed !!!
tmp.columns = pd.MultiIndex.from_product([[new_col_name], df2.columns.tolist()])
return pd.concat([df, tmp], axis=1)
假设我们有以下 DF 并且我们想要添加第三个“多列” -
C
:
In [114]: d
Out[114]:
A B
a b c a b c
0 5 5 7 0 7 2
1 5 3 9 0 5 5
2 5 8 5 5 5 7
3 5 4 5 4 5 2
使用我们的功能:
In [132]: add_multicolumn(d, d2, 'C')
Out[132]:
A B C
a b c a b c a b c
0 5 5 7 0 7 2 0 7 2
1 5 3 9 0 5 5 0 5 5
2 5 8 5 5 5 7 5 5 7
3 5 4 5 4 5 2 4 5 2
旧答案:
你可以使用 pd.concat():
In [35]: d = pd.concat({'A':d['A'], 'B':d2}, axis=1)
In [36]: d
Out[36]:
A B
a b c a b c
0 7 3 9 0 7 2
1 9 4 5 0 5 5
2 7 6 1 5 5 7
3 2 5 7 4 5 2
说明:
In [37]: d['A']
Out[37]:
a b c
0 7 3 9
1 9 4 5
2 7 6 1
3 2 5 7
In [40]: pd.concat({'A':d['A'], 'B':d2}, axis=1)
Out[40]:
A B
a b c a b c
0 5 5 7 0 7 2
1 5 3 9 0 5 5
2 5 8 5 5 5 7
3 5 4 5 4 5 2
我已经发布了一个类似的问题,认为现在应该有一个更合乎逻辑的方法来解决这个问题。目前我解决该问题的方法如下:
d[[("C",c) for c in d3.columns]] = d3
但我仍然觉得这过于复杂。但也许它是当前提出的解决方案的一个不错的替代方案