不均匀分布数据的分类方法

我有几个数据集的值分布非常不均匀：大多数值非常低，但是有些值非常高，例如，在直方图屏幕截图中，甚至更极端。

我实际上对高价值的差异感兴趣。

因此，我正在寻找一种分类方法，该方法可在数据值很少的情况下设置许多break值，在许多值的情况下设置大型类。也许像是反向分位数分类。

您是否建议使用哪种算法来完成此任务，最好在Python中？

python statistics classification distribution

0
投票

如果您使用的是熊猫，您难道不能只是选择高于所选阈值的值并分别分析差异吗？

将熊猫作为pd导入

df = pd.DataFrame（您的数据）

df_to_analyze_large_values = df [df.your_Column_of_interest> 100000]