Please enable JavaScript to view this site.

Navigation: 统计原理 > 异常值

工作方式:Grubb检验

Scroll Prev Top Next More

异常值检验能做什么?

任何数学计算都无法确定异常值与其他值是来自同一人群还是不同人群。不过,统计计算可以回答这个问题:

如果这些值真的都是从高斯分布中采样的,那么你发现一个值与你观察到的其他值相差甚远的概率有多大?

如果这个概率很小,那么你就会得出结论:异常值与其他值并非来自同一分布。假设您对上述三个问题的回答都是否定的,那么您就有理由将其排除在分析之外。

统计学家设计了几种检测异常值的方法。所有方法都首先量化异常值与其他值的距离。这可以是异常值与所有点的平均值之间的差值,也可以是异常值与其余值的平均值之间的差值,或者是异常值与下一个最接近值之间的差值。然后,将该值除以某种散点测量值,如所有值的 SD、其余值的 SD 或数据的范围,使其标准化。最后,计算回答该问题的 P 值:如果所有值都是从高斯群体中随机抽样得到的,那么随机得到一个离其他值如此之远的异常值的概率是多少?如果 P 值很小,就可以得出结论:异常值与其他值的偏差在统计学上显著,很可能来自不同的群体。

格拉布斯检验的原理

格拉布斯检验是定义异常值最常用的方法之一,而且相当容易理解。这种方法也称为 ESD 方法(极端学生化偏差)。

第一步是量化异常值与其他异常值的距离。计算比率 Z,即异常值与平均值之差除以 SD。如果 Z 值很大,说明该值与其他值相差很远。请注意,您计算的是包括异常值在内的所有值的均值和 SD 值。

有时您会看到这个值被称为 G,而不是 Z。

由于高斯群体中有 5%的值与均值的标准偏差大于 1.96,因此如果 Z 大于 1.96,您首先想到的可能是断定异常值来自不同的群体。这种方法只有在你从其他数据中知道群体均值和标准差时才有效。虽然在实验科学中很少出现这种情况,但在质量控制中却经常出现。您从历史数据中知道总体均值和 SD 值,并想知道最新值是否与其他值相匹配。这就是质量控制图的基础。

在分析实验数据时,您不知道群体的标差。相反,您需要根据数据计算自整数。异常值的存在会增加计算出的 SD 值。由于异常值的存在会同时增加分子(值与平均值之间的差)和分母(所有值的 SD),因此 Z 值不会像您期望的那样大。本示例中,如果 N=3,则任何一组数值的 Z 都不会大于 1.155。 更一般地说,对于 N 个观测样本,Z 值永远不会大于 1.155:

格拉布斯等人已经列出了 Z 的临界值。正如期望值一样,临界值随样本量的增加而增加。如果计算出的 Z 值大于表中的临界值,则 P 值小于 0.05。

请注意,格拉布斯检验只检验样本中最极端的值。如果哪个值最极端不明显,可以计算所有值的 Z 值,但只从最大的 Z 值计算 Grubbs 检验的 P 值。

Prism 可以计算数据集中只有三个值的 Grubbs 检验值。

如何解读 P 值

如果 P 值小于 0.05,就意味着如果所有数据真的是从单一高斯分布中采样,那么仅凭偶然因素就能遇到一个与其他异常值相差如此之远(在任一方向上)的异常值的概率小于 5%。

请注意,5% 的概率(或您选择的任何 alpha 值)适用于整个数据集。如果您的数据集有 100 个值,并且都是从高斯分布中采样的,那么有 5%的概率最大(或最小)的值会被格拉布斯检验值宣布为异常值。如果你对很多数据集进行异常值检验,你会发现有 5%的数据集会出现这种错误。

不要混淆,以为这 5%适用于每个数据点。如果数据集中有 100 个值都取自高斯分布,那么格拉布斯检验就有 5%的几率将离均值最远的值识别为异常值。这与(错误地)得出期望值中有 5 个值(占总数的 5%)被错误地宣布为异常值的结论是不同的。

参考文献

B Iglewicz 和 DC Hoaglin.How to Detect and Handle Outliers (Asqc Basic References in Quality Control, Vol 16) Amer Society for Quality Control, 1993.

V Barnett, T Lewis, V Rothamsted.统计数据中的异常值》(Wiley Series in Probability and Mathematical Statistics.Applied Probability and Statistics) John Wiley & Sons, 1994.

© 1995-2019 GraphPad Software, LLC. All rights reserved.