识别数据堆栈中的异常值十分简单。从列数据表中点击“分析”,然后选择 识别异常值 列数据分析列表。在一个数据集中,Prism最少可使用三个值来执行异常值检验。
注:本页说明如何从针对列数据设置格式的数据表中的值堆栈中识别异常值。Prism也能识别非线性回归过程中的异常值。
Prism提供了三种识别异常值的方法:
我们开发了ROUT方法来检测异常值,同时用非线性回归拟合曲线。Prism采用这一方法来从列数据表中的堆栈值中检测异常值。ROUT法可以识别一个或多个异常值。
Grubbs检验可能是识别异常值的最常用方法。该方法又称“ESD法”(极端学生化偏差)。这种方法只能识别每个数据集中的一个异常值。Prism使用双侧Grubbs检验,这意味着其将检测到比其他值大得多的值,或者比其他值小得多的值。
虽然Grubbs检验专用于检测一个异常值,但通常将其扩展以检测多个异常值。完成方法十分简单。如果发现异常值,则将其删除,剩余值再次用Grubbs检验进行检验。如果在第二次检验中发现了异常值,则删除该值,然后运行第三次检验...
虽然Grubbs检验在发现数据集中的一个异常值方面表现出色,但在处理多个异常值时却差强人意。小数据集中存在的第二个异常值会妨碍检测到第一个异常值。这称为 “遮蔽”。Grubbs法通过计算值与平均值之间的差值,然后用差值除以所有值的标准偏差来识别异常值。当该比率过大时,该值定义为异常值。问题是,标准偏差是根据所有值(包括异常值)计算得出。如果有两个异常值,则标准偏差可能会变大,从而将该比率降低到低于用于定义异常值的临界值。参见遮蔽示例。
•如果以某种方式确定了数据集没有异常值或者只有一个异常值,那么请选择Grubbs检验。
•如果考虑到一个以上异常值的可能性,则选择ROUT法。比较Grubbs法和ROUT法。
•避免使用Grubbs迭代法。
•在使用Prism创建盒须图时,可以选择显示Tukey线,当它们与中值的距离超过1.5倍四分位距范围(第75个和第25个百分位之间的差值)时,该盒须图就会单独显示点。有些人将这些点定义为异常值。我们并未在Prism中使用这种异常值检测方法(除创建盒须图),因为它似乎没有得到广泛使用,也没有真正的理论基础。如果您希望我们纳入这种检测异常值的方法,请告诉我们。
无法将异常值与从高斯分布抽样的值完全分离。始终有可能会遗漏掉一些真正的异常值,而错误地将一些“好点”识别为异常值。您需要决定如何大胆定义异常值。选择会因所选的异常值检测方法而有所不同。
采用Grubbs检验,指定α。对于任何具有统计学意义的检测,解释都有相似性。如果没有异常值,则α表示错误识别异常值的可能性。
请注意,α适用于整个实验,而非每个值。假设将α设置为5%,并检验个含有1000个值的数据集,所有值都是从高斯分布中抽样。最极端的值有5%的可能性会被识别为异常值。无论有多少个值,这5%都适用于整个数据集。将5%乘以1000个样本量,并推断预计能识别出50个异常值,这是错误做法。
α是双尾的,因为Prism中的Grubbs检验可以识别出“过大”或“过小”的异常值。
ROUT法建立在错误发现率(FDR)的基础上,因此可以指定Q表示最大预期FDR。
如果没有异常值(分布是高斯分布),则可以像解释α一样解释Q。如果从高斯分布中抽样所有数据,则Q表示识别一个或多个异常值的可能性。
当数据中有异常值时,Q表示最大预期错误发现率。如果将Q设为1%,那么您的目标为不超过1%的识别异常值是假的(实际上只是高斯分布的尾部),因此,已确定异常值中的99%实际上确实属于异常值(来自不同的分布)。如果将Q设置为5%,那么您预计不超过5%的已识别异常值为假,并且至少95%的已识别异常值为真。
权衡十分明显。如果您将α或Q设置得太高,则实际上许多已识别的“异常值”都是从与其他分布相同的高斯分布中抽样的数据点。如果您将α或Q设得太低,则无法识别所有异常值。
异常值识别没有标准。我们建议您先将Q设置为1%或α设置为0.01。
结果分三页显示:
•清理数据(删除异常值)。您可以将此页面用作另一个分析的输入,例如t检验或单因素方差分析。
•仅限于异常值。
•总结。本页列出了在每个数据集中检测到的异常值数量。