如何最好地显示具有多个异常值的大型数据集的分布?

问题描述 投票:0回答:1

我有一个非常大的数据集(约300'000个数据点)及其子集(6000个数据点),它显示了封路前后代理商的行进时间差异(以秒为单位)。我想展示它们的分布差异。

但是,数据集如此之大,以至于离群值仍然如此之多,从箱线图中无法读取任何内容。当然,可以选择一个简单的表格,但是我相信,如果操作正确,图表可以更有效地了解两者之间的区别。

对于分析,真正有趣的是-1000和1000之间的区别。所以我想知道,简单地截断数据集是否可以,还是更适合转换数据?

Boxplot

r graph statistics distribution
1个回答
0
投票

因此,我听了您的评论并尝试了小提琴以及密度图。最终,密度图证明更加合适(并且更易于处理)。因此,结果如下:enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.