pandas qcut 没有将相同数量的观察结果放入每个 bin 中

问题描述 投票:0回答:4

我有一个数据框,我可以从中选择一个列(系列),如下所示:

df:

            value_rank
275488          90
275490          35
275491          60
275492          23
275493          23
275494          34
275495          75
275496          40
275497          69
275498          14
275499          83
...             ...

value_rank 是之前根据较大数据集创建的百分位数排名。我想做的是创建这个数据集的容器,例如五分位数

pd.qcut(df.value_rank, 5, labels=False)


275488    4
275490    1
275491    3
275492    1
275493    1
275494    1
275495    3
275496    2
...      ...

这看起来不错,正如预期的那样,但事实并非如此。

事实上,我有 1569 列。可被 5 个 bin 整除的最接近的数字是 1565,这应该在每个 bin 中给出 1565 / 5 = 313 个观测值。有 4 条额外记录,因此我预计会有 4 个包含 314 个观测值的容器,以及一个包含 313 个观测值的容器。相反,我得到这个:

obs =  pd.qcut(df.value_rank, 5, labels=False)
obs.value_counts()

0    329
3    314
1    313
4    311
2    302

我在 df 中没有 nan,并且想不出发生这种情况的任何原因。真的开始撕扯我的头发了!

这是一个小例子:

df:

            value_rank
286742               11
286835               53
286865               40
286930               31
286936               45
286955               27
287031               30
287111               36
287269               30
287310               18

pd.qcut 给出了这个:

pd.qcut(df.value_rank, 5, labels = False).value_counts()
bin  count
1    3
4    2
3    2
0    2
2    1

每个箱中应有 2 个观测值,而不是箱 1 中 3 个、箱 2 中 1 个!

python pandas binning
4个回答
14
投票

qcut 正在尝试补偿重复值。如果您将 bin 限制与 qcut 结果一起返回,则更容易可视化:

In [42]: test_list = [ 11, 18, 27, 30, 30, 31, 36, 40, 45, 53 ]
In [43]: test_series = pd.Series(test_list, name='value_rank')

In [49]: pd.qcut(test_series, 5, retbins=True, labels=False)
Out[49]:
(array([0, 0, 1, 1, 1, 2, 3, 3, 4, 4]),
 array([ 11. ,  25.2,  30. ,  33. ,  41. ,  53. ]))

您可以看到,别无选择,只能将 bin 限制设置为 30,因此 qcut 必须从第三个 bin 中的预期值中“窃取”一个并将它们放入第二个 bin 中。我认为这只是在更大范围内发生在你的百分位数上,因为你基本上将他们的排名压缩为 1 到 100 的范围。有什么理由不直接在数据上运行 qcut 而不是百分位数或返回具有更高精度的百分位数?


12
投票

只需尝试以下代码:

pd.qcut(df.rank(method='first'),nbins)

4
投票

如果您必须获得相等(或几乎相等)的垃圾箱,那么这里有一个可以与 qcut 一起使用的技巧。使用与接受的答案相同的数据,我们可以通过向原始 test_list 添加一些随机噪声并根据这些值进行分箱来强制将它们放入相等的箱中。

test_list = [ 11, 18, 27, 30, 30, 31, 36, 40, 45, 53 ]

np.random.seed(42) #set this for reproducible results
test_list_rnd = np.array(test_list) + np.random.random(len(test_list)) #add noise to data

test_series = pd.Series(test_list_rnd, name='value_rank')
pd.qcut(test_series, 5, retbins=True, labels=False)

输出:

(0    0
 1    0
 2    1
 3    2
 4    1
 5    2
 6    3
 7    3
 8    4
 9    4
 Name: value_rank, dtype: int64,
 array([ 11.37454012,  25.97573801,  30.42160255,  33.11683016,
         41.81316392,  53.70807258]))

所以,现在我们有两个 0、两个 1、两个 2 和两个 4!

免责声明

显然,您可以自行决定使用此选项,因为结果可能会根据您的数据而有所不同;例如,您的数据集有多大和/或间距。上面的“技巧”对于整数很有效,因为即使我们对 test_list 进行“加盐”,它仍然会排序,因为组 0 中的值不会大于组 1 中的值(可能等于,但不能更大)。但是,如果您有浮动,这可能会很棘手,您可能必须相应地减小噪音的大小。例如,如果您有 2.1、5.3、5.3、5.4 等浮点数,则应该除以 10 来减少噪声: np.random.random(len(test_list)) / 10。如果您有任意长的浮点数,然而,考虑到“真实”数据中已经存在噪声,您可能一开始就不会遇到这个问题。


1
投票

这个问题是由重复值引起的。强制大小相同的 bin 的可能解决方案是在对数据帧进行排序后使用索引作为 pd.qcut 的输入:

import random

df = pd.DataFrame({'A': [random.randint(3, 9) for x in range(20)]}).sort_values('A').reset_index()
del df['index']
df = df.reset_index()
df['A'].plot.hist(bins=30);

图片:https://i.stack.imgur.com/ztjzn.png

df.head()
df['qcut_v1'] = pd.qcut(df['A'], q=4)
df['qcut_v2'] = pd.qcut(df['index'], q=4)
df

图片:https://i.stack.imgur.com/RB4TN.png

df.groupby('qcut_v1').count().reset_index()

图片:https://i.stack.imgur.com/IKtsW.png

df.groupby('qcut_v2').count().reset_index()

图片:https://i.stack.imgur.com/4jrkU.png

抱歉,我无法发布图片,因为我在 stackoverflow 上没有至少 10 的声誉 -.-

© www.soinside.com 2019 - 2024. All rights reserved.