Prism 提供四种正态性检验(作为列统计分析的一部分提供):
我们推荐使用 D'Ágostino-Pearson 检验。如果每个值都是唯一的,Shapiro-Wilk 检验效果也很好,但存在并列关系时效果不佳。非数学家很难理解该检验的基础。基于这些原因,尽管 Shapiro-Wilk 检验在大多数情况下都很有效,但我们还是更倾向于使用 D'Ágostino-Pearson 检验。
为了与 Prism 的旧版本兼容,我们加入了 Kolmogorov-Smirnov 检验,并使用 Dallal-Wilkinson-Lilliefor 校正 P 值,但不推荐使用。
|
这三种检验都是问分布偏离高斯理想分布的程度。 由于这些检验使用不同的方法量化偏离高斯分布的程度,因此得出不同的结果也就不足为奇了。根本的问题在于,这些检验并没有问两个定义的分布(比如高斯分布与指数分布)中哪个更适合数据。相反,它们比较的是高斯分布与非高斯分布。这种比较非常模糊。由于不同的检验方法处理问题的方式不同,因此得出的结果也不同。
|
Kolmogorov-Smirnov 检验需要 5 个或更多值。Shapiro-Wilk检验需要 3 个或更多值。D'Agostino 检验需要 8 个或更多值,Anderson-Darling 检验也是如此。
|
正态性检验都会报告一个 P 值。要理解任何 P 值,都需要知道零假设。在本例中,零假设是所有值都是从高斯分布中采样的。P 值回答了这个问题:
如果零假设成立,那么随机抽样数据偏离高斯理想分布的几率有多大?
|
您可以在分析对话框中设置临界值。默认使用传统的 0.05 临界值。如果 P<0.05,则数据未通过正态性检验。如果 P> 0.05,则数据通过正态性检验。当然,这个截止值是完全任意的。
|
不是。一个群体的分布可能是高斯分布,也可能不是。数据样本不可能是高斯分布,也不可能不是高斯分布。这个术语只能适用于数据采样的整个群体值。
|
可能没有。几乎在所有情况下,我们都可以肯定数据不是从理想的高斯分布中采样的。这是因为理想的高斯分布包括一些非常低的负数和一些超高的正值。这些值只占高斯分布群体中所有值的极小一部分,但它们是分布的一部分。在收集数据时,可能的数值会受到一些限制。压力、浓度、重量、酶活性和许多其他变异性变量不能为负值,因此不能从完美的高斯分布中采样。其他变异性变量可以是负值,但有物理或生理限制,不允许有超大的值(或有极低的负值)。
|
是的,但大量的模拟结果表明,即使群体只是近似高斯分布,这些检验也能很好地进行。
|
其实不然。很难定义什么是 "足够接近",正态性检验在设计时也没有考虑到这一点。
|
每个正态性检验都会报告一个中间值,用来计算 P 值。遗憾的是,没有明显的方法来解读 K2(由 D'Agostino 检验计算)、KS(由 Kolmogorov-Smirnov 检验计算)或 W(由 Shapiro-Wilk 检验计算)。据我所知,没有直接的方法可以使用这些值来判断正态性检验的偏差是否严重到需要放弃参数检验。Prism 只报告这些值,以便您将结果与文本和其他程序进行比较。
|
在大多数情况下作用不大。对于小样本,正态性检验没有太大的检验力来检测非高斯分布。对于大样本,数据是否为非正态分布就不那么重要了,因为 t 检验和方差分析对违反这一标准的情况相当稳健。
你想要的是一种检验,告诉你与高斯理想的偏差是否严重到足以使假定高斯分布的统计方法失效。但正态性检验并不能做到这一点。
|
这很常见。CV很小(比如小于0.3)的正态分布与GeoSD很小(比如小于1.3)的对数正态分布看起来非常相似。这些数据集通常会同时通过正态性检验和对数正态性检验(除非样本量很大)。
|
参考文献
1 RB D'Agostino,"Tests for Normal Distribution" in Goodness-Of-Fit Techniques edited by RB D'Agostino and MA Stepenes,Macel Decker,1986。
本页部分内容摘自 Motulsky, H.J. (2010) 第 24 章。直观生物统计学》,第 2 版。牛津大学出版社。ISBN=978-0-19-973006-3.