执行Shapiro-Wilk常态测试

问题描述 投票:28回答:4

我想进行Shapiro-Wilk常态测试。我的数据是csv格式。它看起来像这样:

 heisenberg
    HWWIchg
1    -15.60
2    -21.60
3    -19.50
4    -19.10
5    -20.90
6    -20.70
7    -19.30
8    -18.30
9    -15.10

但是,当我进行测试时,我得到:

 shapiro.test(heisenberg)

[.data.frame(x,complete.cases(x))出错:选择了未定义的列

为什么不选择正确的列,我该怎么做?

r statistics normal-distribution
4个回答
124
投票

什么shapiro.test做什么?

shapiro.test测试Null假设,即“样本来自正态分布”,而另一种假设是“样本不是来自正态分布”。

如何在R中执行shapiro.test?

?shapiro.test的R帮助页面给出,

x - a numeric vector of data values. Missing values are allowed, 
    but the number of non-missing values must be between 3 and 5000.

也就是说,shapiro.test期望数字向量作为输入,对应于您要测试的样本,它是唯一需要的输入。由于您有一个data.frame,您必须将所需的列作为输入传递给函数,如下所示:

> shapiro.test(heisenberg$HWWIchg)
#   Shapiro-Wilk normality test

# data:  heisenberg$HWWIchg 
# W = 0.9001, p-value = 0.2528

解释shapiro.test的结果:

首先,我强烈建议你来自Ian Fellows的read this excellent answer关于testing for normality

如上所示,shapiro.test测试样本来自正态分布的NULL假设。这意味着如果您的p值<= 0.05,那么您将拒绝样本来自正态分布的NULL假设。正如Ian Fellows所说的那样,你正在测试正常性的假设“。换句话说(如果我错了就纠正我),如果测试NULL假设样本不是来自正态分布会好得多为什么?因为,拒绝NULL假设与接受替代假设不同。

shapiro.test的零假设的情况下,p值<= 0.05将拒绝样本来自正态分布的零假设。松散地说,样本很少有机会来自正态分布。这种假设检验的副作用是这种罕见的机会很少发生。为了说明,例如:

set.seed(450)
x <- runif(50, min=2, max=4)
shapiro.test(x)
#   Shapiro-Wilk normality test
# data:  runif(50, min = 2, max = 4) 
# W = 0.9601, p-value = 0.08995

因此,根据该测试,这个(特定)样本runif(50, min=2, max=4)来自正态分布。我想说的是,在很多情况下,“极端”要求(p <0.05)不满足,这导致大多数时候接受“NULL假设”,这可能会产生误导。

我想从@PaulHiemstra引用的另一个问题是关于对大样本量的影响的评论:

Shapiro-Wilk测试的另一个问题是,当您向其提供更多数据时,拒绝原假设的可能性变得更大。所以会发生的是,对于大量数据,甚至可以检测到与正常性的非常小的偏差,导致拒绝零假设事件,尽管出于实际目的,数据足够正常。

虽然他也指出R的数据大小限制保护了这一点:

幸运的是,shapiro.test通过将数据大小限制为5000来保护用户免受上述影响。

如果NULL假设是相反的,意思是,样本不是来自正态分布,并且你得到p值<0.05,那么你得出结论,这些样本不是来自正态分布是非常罕见的(拒绝NULL假设)。这松散地转化为:样本很可能是正态分布的(尽管一些统计学家可能不喜欢这种解释方式)。我相信这是Ian Fellows在他的帖子中也试图解释的。如果我出错了,请纠正我!

@PaulHiemstra还会在遇到正常性测试问题时评论实际情况(例如回归):

在实践中,如果分析假设正常,例如,嗯,我不会做这个Shapiro-Wilk的测试,但是做分析并查看分析结果的诊断图,以判断分析的任何假设是否被过度侵犯。对于使用lm的线性回归,可以通过查看使用plot(lm())获得的一些诊断图来完成。统计数据不是一系列咳出几个数字的步骤(嘿p <0.05!),但在判断如何正确分析数据方面需要大量的经验和技巧。

在这里,我发现Ian Fellows对Ben Bolker在同一问题上的评论的回复已经在上面同样(如果不是更多)提供了相关信息:

对于线性回归,

  1. 不要太在意正常性。 CLT快速接管,如果您拥有除最小样本之外的所有样本以及甚至是远程合理的直方图,您都可以。
  2. 担心不等差异(异方差性)。我担心这个(几乎)默认使用HCCM测试。比例位置图将给出一些关于这是否被打破的想法,但并非总是如此。此外,在大多数情况下,没有先验理由假设相等的方差。
  3. 离群值。烹饪距离> 1是合理的原因。

这些是我的想法(FWIW)。

希望这可以解决一些问题。


8
投票

您正在将shapiro.test()应用于data.frame而不是列。请尝试以下方法:

shapiro.test(heisenberg$HWWIchg)

1
投票

您未能指定要测试正常性的确切列(数据)。请改用它

shapiro.test(heisenberg$HWWIchg)

-2
投票

将数据设置为矢量,然后放入函数中。

© www.soinside.com 2019 - 2024. All rights reserved.