为什么将数据分为 4 个部分用于 IQR,而不是每个部分分成 20 或 10 个百分比?

问题描述 投票:0回答:1

为什么要将数据分为 4 个部分以进行 IQR,而不是分成更多部分,例如每个部分 20% 或 10%?

我知道四分位距的定义意味着 25%,但这不是我的问题。

我认为为 IQR 丢弃 50% 的数据来去除异常值太浪费数据了。但总得有个理由吧?

statistics iqr
1个回答
0
投票

当使用 IQR 查找离群值时,离群值定义为

[Q1; Q3]
范围之外的数据点。它们被定义为
[Q1 − 1.5*IQR; Q3 + 1.5*IQR]
范围之外的点。因此,用您的话说,“浪费”的数据远少于 50%。

四分位距通常用于查找数据中的异常值。此处的异常值定义为低于 Q1 − 1.5 IQR 或高于 Q3 + 1.5 IQR 的观测值。在箱线图中,此限制内的最高和最低出现值由箱须(通常在须线末端有一个附加条)和任何异常值作为单独的点来指示。

四分位数范围 - 维基百科

另请参阅:

© www.soinside.com 2019 - 2024. All rights reserved.