如何有效地过滤由两列groupby操作获得的数据帧，以仅包含第二个索引的最大值和最小值？

Question

我有一个数据框df，它是通过执行两列groupby操作获得的：

df = data.groupby(['letters', 'syllables']).size()

这是df的前11行的输出：

                      0
letters syllables      
1       1            25
        3             1
2       1           188
        2            44
        3             1
        4             1
3       1          1304
        2           189
        3            89
        4             2
        5             3

我想过滤df，以便对于letters中的每个索引，只显示syllables的最大和最小索引，给出以下输出：

                      0
letters syllables      
1       1            25
        3             1
2       1           188
        4             1
3       1          1304
        5             3

更好的方法是创建一个这样的数据框：

                               0
letters statistic syllables     
1       min       1           25
        max       3            1
2       min       1          188
        max       4            1
3       min       1         1304
        max       5            3

完整数据帧有120行。我知道我可以通过循环来做到这一点，但我想更好地理解pandas操作，并想知道如何更有效地做到这一点。

上面的示例数据可以使用以下命令从csv文件导入到多级索引数据框中：

df = pd.read_csv('data.csv', index_col=[0,1])

编辑：这是Erfan建议的代码输出：

df = data.groupby(['letters', 'syllables']).agg({'letters' : 'size', 'syllables' : ['min', 'max']})

输出：

                  letters syllables    
                     size       min max
letters syllables                      
1       1              25         1   1
        3               1         3   3
2       1             188         1   1
        2              44         2   2
        3               1         3   3
        4               1         4   4
3       1            1304         1   1
        2             189         2   2
        3              89         3   3
        4               2         4   4
        5               3         5   5

Answer 1

你可以单独做，然后concat回来

s=data.groupby(['letters', 'syllables']).size().sort_values(0)
yourdf=pd.concat([s.groupby(level=0).head(1),s.groupby(level=0).tail(1)],keys=['min','max']).swaplevel(i=0,j=1).sort_index()

如何有效地过滤由两列groupby操作获得的数据帧，以仅包含第二个索引的最大值和最小值？

问题描述投票：0回答：1

1个回答

最新问题

如何有效地过滤由两列groupby操作获得的数据帧，以仅包含第二个索引的最大值和最小值？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1