下图显示了两个数据集,除了一个数据点之外,其他数据完全相同。显然,右边的数据集有两个异常值,左边的数据集只有一个异常值。这个结论一点也不含糊。
Grubbs 异常值检验的结果令人惊讶。该检验(α 值设为 5%,但α 值设为 1%时结果相同)确实识别出了左边数据集中的异常值。这并不奇怪。但是,Grubbs 检验在右边的数据集中没有发现任何异常值。第二个异常值的存在阻止了异常值检验发现第一个异常值。这就是所谓的掩蔽。
Grubbs 异常值检验通过首先计算可能的异常值与平均值之间的差值,然后用这个差值除以标准偏差,计算出一个比率 Z。如果 Z 足够大(考虑到样本量),则宣布该点为异常值。请注意,均值和标准偏差是根据所有数据计算得出的,包括计算中的疑似异常值。如下表所示,第二个异常值的存在(在一个较小的数据集中)会使标准偏差增大,从而使 Z 值减小到用于定义异常值的临界值以下。
左侧(一个异常值) |
右侧(两个异常值) |
|
平均值 |
60.364 |
68.167 |
离群值 |
33.384 |
41.759 |
Z |
2.8048 |
2.0554 |
n |
11 |
12 |
定义异常值的临界 Z 值(α=5) |
2.3547 |
2.4116 |
确定异常值的临界 Z 值(alpha=1) |
2.5641 |
2.6357 |