下图显示了两个数据集,除一个数据点外,其他数据点均相同。显然,右侧的数据集有两个异常值,左侧数据集只有一个异常值。得出该结论一点也不难。
(下载Prism文件。)
Grubbs异常值检验的结果让人十分意外。该检验(将α设为5%,但α设为1%时获得相同的结果)确实识别出左侧数据集中的异常值。这并不奇怪。但Grubbs检验在右侧数据集中未发现任何异常值。第二个异常值的存在阻止异常值检验找到第一个异常值。这称为 “遮蔽”。
Grubbs异常值检验通过首先计算可能的异常值和平均值之间的差值,然后将该差值除以标准差,计算比值Z。如果Z足够大(考虑样本量),则将该点声明为异常点。请注意,平均值和标准差是根据所有数据计算,包括计算中的疑似异常值。如下表所示,第二个异常值的存在(在一个小数据集中)扩大了标准差,因此,将Z值降低到用于定义异常值的阈值以下。
左侧(一个异常值) |
右侧(两个异常值) |
|
平均值 |
60.364 |
68.167 |
SD |
33.384 |
41.759 |
Z |
2.8048 |
2.0554 |
n |
11 |
12 |
定义异常值的关键Z(alpha = 5%) |
2.3547 |
2.4116 |
定义异常值的关键Z(alpha = 1%) |
2.5641 |
2.6357 |