不均匀分布数据的分类方法

问题描述 投票:0回答:1

我有几个数据集的值分布非常不均匀:大多数值非常低,但是有些值非常高,例如,在直方图屏幕截图中,甚至更极端。

我实际上对高价值的差异感兴趣。

因此,我正在寻找一种分类方法,该方法可在数据值很少的情况下设置许多break值,在许多值的情况下设置大型类。也许像是反向分位数分类。

您是否建议使用哪种算法来完成此任务,最好在Python中?

enter image description here

python statistics classification distribution
1个回答
0
投票

如果您使用的是熊猫,您难道不能只是选择高于所选阈值的值并分别分析差异吗?

将熊猫作为pd导入

df = pd.DataFrame(您的数据)

df_to_analyze_large_values = df [df.your_Column_of_interest> 100000]

© www.soinside.com 2019 - 2024. All rights reserved.