在pandas中,如何在两列加值列的枢轴期间或之后可靠地设置多级列的索引顺序

问题描述 投票:0回答:1

在使用单独的值列围绕两列进行旋转之后,我想要一个具有特定顺序的多索引列的 df,如下所示(请忽略 multi-2 和 multi-3 标签在简化示例中毫无意义):

multi-1       one       two
multi-2   multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar     -1.788089 -0.631030
baz     -1.836282  0.762363
foo     -1.104848 -0.444981
qux     -0.484606 -0.507772

从标记为 multi-2 的多索引值系列开始,我创建一个三列 df:第 1 列 - 系列的索引 (multi-1);第 2 列 - 值(multi-2);再加上另一列(multi-3),我真的只想要它作为列标签。然后我想围绕 multi-1 和 multi-3 旋转这个 df,值为 multi-2。问题:多索引列标签必须始终按特定顺序排列:multi-1、multi-2、然后 multi-3。

import pandas as pd
import numpy as np

arrays = [["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
          ["one", "two", "one", "two", "one", "two", "one", "two"]]

tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=["mIndex", "multi-1"])

s = pd.Series(np.random.randn(8), index=index)
s.rename("multi-2", inplace=True)

df = pd.DataFrame(s.reset_index(level=["multi-1"]))
df["multi-3"] = "SomeText"

df = df.pivot(columns={"multi-1", "multi-3"}, values=["multi-2"])
df = df.swaplevel(0,1, axis=1)      # option 1: works only sometimes
# ???? how do I name the values level ????
df = df.reorder_levels("multi-1", "multi-2", "multi-3")  # option 2: set fixed order

在枢轴期间将 multi-2 包含在列中会创建另一个级别。

.swaplevel 方法并不总是返回相同的顺序,因为(我猜)原始索引顺序在枢轴之后并不总是相同。这可以吗?!?

要使用 reorder_levels,我需要以某种方式为 multi-2 值级别设置索引标签(当前为“None”,以及“Multi-1”和“Multi-3”)。

有没有办法在旋转过程中设置标签?或者在枢轴之后以不使用索引的方式(这似乎以某种方式改变)?或者有其他方法可以得到相同的结果?

python pandas dataframe multi-index
1个回答
1
投票

pivot
之后,值没有索引名称,您必须分配它:

(df.pivot(columns={'multi-1', 'multi-3'}, values=['multi-2'])
   .rename_axis(columns={None: 'multi-2'})
   .reorder_levels(['multi-1', 'multi-2', 'multi-3'], axis=1) 
)

输出:

multi-1       one       two
multi-2   multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar      0.938079 -1.051440
baz      0.263281  1.388145
foo     -0.965295  0.611163
qux     -1.120318 -0.529974

或者:

swaplevel
无法一致工作,因为您在
set
中使用了pivot(即
无序
),请使用
list

(df.pivot(columns=['multi-1', 'multi-3'], values=['multi-2'])
   .swaplevel(0, 1, axis=1)
)

注意。如果需要,您还可以添加

.rename_axis(columns={None: 'multi-2'})

输出:

multi-1       one       two
          multi-2   multi-2
multi-3  SomeText  SomeText
mIndex                     
bar      0.542184 -0.199041
baz      1.253028 -1.006294
foo      0.252699 -1.728199
qux      0.572631 -0.694103

# with more columns
# columns=['multi-1', 'multi-3', 'multi-4', 'multi-5']

multi-1       one       two
          multi-2   multi-2
multi-3  SomeText  SomeText
multi-4  SomeText  SomeText
multi-5  SomeText  SomeText
mIndex                     
bar      0.071546  0.264463
baz      0.516355  1.594471
foo     -0.194536 -1.344563
qux     -0.197232 -0.845405
© www.soinside.com 2019 - 2024. All rights reserved.