解读正态性检验
正态性检验的结果表示为一个P值,其回答了以下问题:
如果模型正确,且模型周围的所有分散均遵循高斯总体,则获得其残差与高斯分布的偏差与您的数据与高斯分布的偏差相同(或更大)的数据的概率为多少?
如果P值较大,则残差通过正态性检验。如果P值较小,则未通过,且您有证据表明数据未遵循回归的假设之一,应考虑的方面:
•对不同模型进行拟合
•数据的权重确定有所不同。
•排除异常值。
较大的P值意味着您的数据与回归的假设一致(但肯定不能证明模型是正确的)。由于数据点数量较少,正态性检验几乎没有能力检测高斯分布的适度偏差。
我们建议依赖D'Agostino - Pearson 正态性检验。其首先计算偏斜度和峰度,以量化分布在不对称和形状方面离高斯分布有多远。然后,其计算这些值中的每一个与高斯分布的预期值之间的差异,并基于这些差异的总和,计算各P值。这是一个通用和强大的(与其他一些检验相比)正态性检验,建议使用。请注意,D'Agostino开发了几种正态性检验。Prism使用的其中一个是“综合K2”检验。
另一种替代方案是Shapiro - Wilk 正态性检验。我们更喜欢D'Agostino-Pearson检验的原因有二。原因之一是,尽管在每个残差均是唯一的情况下,Shapiro-Wilk检验的效果很好, 但多个残差相同时,其效果不佳,另一原因是非数学家人士难以理解检验的基础。
Prism的早期版本仅提供 Kolmogorov - Smirnov 检验。我们仍提供该检验(出于一致性), 但不再推荐。该检验将数据的累积分布与预期的累积高斯分布进行比较,并将其P值简单地建立在最大差异的基础上。这并非一种用于评估正态性的非常敏感的方式,且我们现在同意这一说明1:“Kolmogorov - Smirnov检验仅是一个历史奇闻,从不使用。”
最初发表的Kolmogorov - Smirnov方法假设您知道整个群体的平均值和SD(可能来自先前工作)。在分析数据时,您很少知道整个群体平均值和SD。您只知道您的样本的平均值和SD。因此,为计算P值,Prism使用Dallal和Wilkinson逼近Lilliefors的方法(《美国统计学家》,40:294-296,1986)。由于该方法仅在P值较小的情况下较为准确,因此Prism只在P值较大的情况下报告“P>0.10”。
Prism8增加了 Anderson - Darling检验。尽管Kolmogorov-Smirnov检验只考虑实际分布和高斯分布之间的最大差异,但Anderson-Darling检验将所有差异相加。Prism使用Anderson-Darling检验的形来纠正使用样本平均值和样本标准差的事实,而不知道将总体平均值和标准差与数据进行比较的事实。
1 RB D'Agostino,“正态分布检验” 拟合优度技术,编辑:RB D'Agostino和MA Stepenes,Macel Decker,1986。