我有几个数据集的值分布非常不均匀:大多数值非常低,但是有些值非常高,例如,在直方图屏幕截图中,甚至更极端。
我实际上对高价值的差异感兴趣。
因此,我正在寻找一种分类方法,该方法可在数据值很少的情况下设置许多break值,在许多值的情况下设置大型类。也许像是反向分位数分类。
您是否建议使用哪种算法来完成此任务,最好在Python中?
如果您使用的是熊猫,您难道不能只是选择高于所选阈值的值并分别分析差异吗?
将熊猫作为pd导入
df = pd.DataFrame(您的数据)
df_to_analyze_large_values = df [df.your_Column_of_interest> 100000]