没有任何数学计算可以确切地告诉您,这些异常值是来自与其他值相同的群体,还是不同的群体。然而,统计计算可以回答该问题:
如果这些值确实都是从高斯分布中抽样,则您发现一个值与其他值的偏离程度与您观察到的值一样的概率是多少?
如果这一概率很小,则您会得出结论,异常值不是来自与其他值相同的分布。假设您对以上三个问题的回答都是否定,您有理由将其从您的分析中排除。
统计学家设计了几种检测异常值的方法。所有方法首先量化异常值与其他值的偏离程度。这可以是异常值与所有点的平均值之间的差异、异常值与剩余值的平均值之间的差异,或者异常值与下一个最接近值之间的差异。接下来,通过除以一些离散度来标准化该值,例如所有值的SD、剩余值的SD或数据范围。最后,计算P值来回答该问题:如果所有值确实都是从高斯群体中抽样,则随机获得与其他值偏离较远的异常值的概率有多大?如果P值很小,则您可以得出结论,异常值与其他值的偏差具有统计学显著性,并且很可能来自不同的群体。
Grubbs检验是定义异常值的最常用方法之一,并且非常容易理解。该方法又称“ESD法”(极端学生化偏差)。
第一步是量化异常值与其他值的偏离程度。将比率Z计算为异常值与平均值之差除以SD。如果Z很大,则该值与其他值偏离较远。注意,您基于所有值(包括异常值) 计算平均值和SD 。
有时,您会看到该值称为G,而非Z。
由于高斯群体中5%的值与平均值的标准偏差超过1.96,您首先想到的可能是得出结论:如果Z大于1.96,则异常值来自不同的群体。仅当您从其他数据知道群体平均值和SD时,这种方法才有效。虽然这种情况在实验科学中很少发生,但在质量控制中却很常见。您从历史数据中知道整体平均值和SD,并想知道最新值是否与其他值匹配。这是质量控制图的基础。
当分析实验数据时,您不知道群体的SD。相反,您可以根据数据计算SD。异常值的存在使得计算的SD增加。由于异常值的存在使得分子(值和平均值之间的差)和分母(所有值的SD)增加,所以Z不能像您所期望的那样大。例如,如果N = 3,则对于任何一组值,Z都不能大于1.155。更一般地说,如果样本包含N个观察值,则Z永远不会大于:
Grubbs和其他方法列出了Z的临界值,这些临界值已列入表格。正如预期,临界值随着样本量的增加而增加。如果您计算的Z值大于表中的临界值,则P值小于0.05。
注意,Grubbs检验仅检验样本中的最极端值。如果不清楚哪个值是最极端值,则计算所有值的Z,但只从Z的最大值计算Grubbs检验的P值。
Prism可以用数据集中少至三个值来计算Grubbs检验。
如果P值小于0.05,这意味着:如果所有数据确实都是从单个高斯分布中抽样,则您在单纯的巧合下遇到与其他值偏离较远(在任何方向)的异常值的概率小于5%。
注意,5%的概率(或您选择的任何α值)适用于整个数据集。如果您的数据集有100个值,并且都是从高斯分布中抽样,则Grubbs检验将最大(或最小)值宣布为异常值的概率为5%。如果您对大量数据集进行异常值检验,则您可能预期5%的数据集中会发现这种错误。
不要混淆,并且认为5%适用于每个数据点。如果数据集中有100个值,并且都来自高斯分布,则Grubbs检验将与平均值相距最远的值识别为异常值的概率为5%。这不同于(错误地)得出这一结论:您预期其中5个值(占总数的5%)错误地宣布为异常值。
•B Iglewicz和DC Hoaglin。如何检测和处理异常值(Asqc《质量控制的基本参考》,第16卷)美国质量管理协会,1993。
•V Barnett、T Lewis和V Rothamsted,统计数据中的异常值(《概率论与数理统计(威利系列)》、《应用概率统计》)John Wiley&Sons,1994。