在使用单独的值列围绕两列进行旋转之后,我想要一个具有特定顺序的多索引列的 df,如下所示(请忽略 multi-2 和 multi-3 标签在简化示例中毫无意义):
multi-1 one two
multi-2 multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar -1.788089 -0.631030
baz -1.836282 0.762363
foo -1.104848 -0.444981
qux -0.484606 -0.507772
从标记为 multi-2 的多索引值系列开始,我创建一个三列 df:第 1 列 - 系列的索引 (multi-1);第 2 列 - 值(multi-2);再加上另一列(multi-3),我真的只想要它作为列标签。然后我想围绕 multi-1 和 multi-3 旋转这个 df,值为 multi-2。问题:多索引列标签必须始终按特定顺序排列:multi-1、multi-2、然后 multi-3。
import pandas as pd
import numpy as np
arrays = [["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
["one", "two", "one", "two", "one", "two", "one", "two"]]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=["mIndex", "multi-1"])
s = pd.Series(np.random.randn(8), index=index)
s.rename("multi-2", inplace=True)
df = pd.DataFrame(s.reset_index(level=["multi-1"]))
df["multi-3"] = "SomeText"
df = df.pivot(columns={"multi-1", "multi-3"}, values=["multi-2"])
df = df.swaplevel(0,1, axis=1) # option 1: works only sometimes
# ???? how do I name the values level ????
df = df.reorder_levels("multi-1", "multi-2", "multi-3") # option 2: set fixed order
在枢轴期间将 multi-2 包含在列中会创建另一个级别。
.swaplevel 方法并不总是返回相同的顺序,因为(我猜)原始索引顺序在枢轴之后并不总是相同。这可以吗?!?
要使用 reorder_levels,我需要以某种方式为 multi-2 值级别设置索引标签(当前为“None”,以及“Multi-1”和“Multi-3”)。
有没有办法在旋转过程中设置标签?或者在枢轴之后以不使用索引的方式(这似乎以某种方式改变)?或者有其他方法可以得到相同的结果?
pivot
之后,值没有索引名称,您必须分配它:
(df.pivot(columns={'multi-1', 'multi-3'}, values=['multi-2'])
.rename_axis(columns={None: 'multi-2'})
.reorder_levels(['multi-1', 'multi-2', 'multi-3'], axis=1)
)
输出:
multi-1 one two
multi-2 multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar 0.938079 -1.051440
baz 0.263281 1.388145
foo -0.965295 0.611163
qux -1.120318 -0.529974
或者:
swaplevel
无法一致工作,因为您在set
中使用了pivot
(即无序),请使用
list
:
(df.pivot(columns=['multi-1', 'multi-3'], values=['multi-2'])
.swaplevel(0, 1, axis=1)
)
注意。如果需要,您还可以添加
.rename_axis(columns={None: 'multi-2'})
。
输出:
multi-1 one two
multi-2 multi-2
multi-3 SomeText SomeText
mIndex
bar 0.542184 -0.199041
baz 1.253028 -1.006294
foo 0.252699 -1.728199
qux 0.572631 -0.694103
# with more columns
# columns=['multi-1', 'multi-3', 'multi-4', 'multi-5']
multi-1 one two
multi-2 multi-2
multi-3 SomeText SomeText
multi-4 SomeText SomeText
multi-5 SomeText SomeText
mIndex
bar 0.071546 0.264463
baz 0.516355 1.594471
foo -0.194536 -1.344563
qux -0.197232 -0.845405