Pandas数据框,根据唯一值的数量选择n个随机行

问题描述 投票:0回答:1

我正在研究一个很好地训练的文本分类问题,但是我的类别非常不平衡,从而阻碍了结果。最大的2个类别比最小的类别大80倍以上,因此,这2个类别的数量不公平。我需要从每个类别中选择n行(任意大)。我的数据集非常大(1000万行,一千个唯一类别)。

假设数据帧是:

data = {
    'category':['2','2','2','2','4','4','4','4','4','4','6','6','6'],
    'text':['t1','t2','t3','t4','t5','t6','t7','t8','t9','t10','t11','t12','t13']
}

df = pd.DataFrame(data)

如何为每个类别选择n个随机行?

[我试图找到某种方法来使用np.random.choice选择n个随机行,但是我找不到一种方法来逐个索引地获取该索引。

n = 3的理想输出为:

>>> df.head(9)
    category    text
0   2           t3
1   6           t11
2   6           t13
3   4           t6
4   2           t1
5   4           t9
6   4           t8
7   2           t4
8   6           t12

python python-3.x pandas
1个回答
0
投票

您可以使用samplegroupby().head()

df.sample(frac=1).groupby('category').head(3)

输出:

   category text
4         4   t5
12        6  t13
1         2   t2
8         4   t9
9         4  t10
3         2   t4
10        6  t11
0         2   t1
11        6  t12
© www.soinside.com 2019 - 2024. All rights reserved.