Please enable JavaScript to view this site.

Navigation: 统计原理 > 异常值

工作方式:ROUT方法

Scroll Prev Top Next More

ROUT 的基本原理

ROUT 方法是作为一种从非线性回归中识别异常值的方法而开发的。了解有关 ROUT 方法的更多信息。

简而言之,它首先使用异常值影响很小的稳健方法将模型拟合到数据中。然后,它使用一种基于错误发现率的新异常值检测方法,来决定哪些点与模型的预测值相差甚远,可以称为异常值。

当您要求 Prism 在一叠列数据中检测异常值时,它只需调整这种方法即可。它将您输入的值视为 Y 值,并拟合模型 Y= M,其中 M 为稳健均值。[如果要使用 Prism 的非线性回归分析,则需要为每一行分配任意的 X 值,然后拟合 Y= X*0 + M 的模型。)

这种方法可以检测出任意数量的异常值(最多为样本量的 30%)。

Prism 可以在一个数据集只有三个值的情况下执行 ROUT 检验。

什么是 Q?

ROUT 方法基于错误发现率 (FDR),因此您需要指定 Q,即所需的最大 FDR。Q 值的解读依赖于数据集中是否存在异常值。

当没有异常值时(分布完全是高斯分布),Q 与 alpha 非常相似。假设所有数据都来自高斯分布,Q 就是(错误地)识别出一个或多个异常值的几率。

当数据中存在异常值时,Q 就是期望的最大错误发现率。如果将 Q 设为 1%,那么所识别的异常值中不超过 1%是错误的(实际上只是高斯分布的尾部),至少 99% 是真正的异常值(来自不同的分布)。

ROUT 与 Grubbs 方法的比较

我进行了模拟,以比较 Grubbs 和 ROUT 检测异常值的方法。 简而言之,数据是从高斯分布中采样的。在大多数情况下,都会加入异常值(从均匀分布中抽取,并有指定的限制)。每个实验设计都模拟了 25000 次,我将异常值为零、一个、两个或两个以上的模拟次数制成表格。

当没有异常值时,ROUT 检验和 Grubbs 检验的表现几乎相同。为 ROUT 方法指定的 Q 值等同于为 Grubbs 检验设置的 alpha 值。

当出现一个异常值时,Grubbs 检验的检测能力稍强一些。ROUT 方法的假阳性和假阴性都更多。换句话说,它遗漏异常值的可能性稍大,即使模拟只包含一个异常值,也更有可能发现两个异常值。这并不太令人惊讶,因为 Grubbs 检验的目的是检测单个异常值。虽然两种方法之间的差异很明显,但并不显著。

当一个小数据集中有两个异常值时,ROUT 检验的效果要好得多。迭代 Grubbs 检验法会受试者掩蔽,而 ROUT 检验法不会。掩蔽是否是个问题,依赖于样本的大小以及异常值与其他值的平均值的距离。在确实存在掩蔽的情况下,ROUT 检验的效果比 Grubbs 检验好得多。 例如,当 n=10 有两个异常值时,Grubbs 检验从未发现过两个异常值,在 98.8% 的模拟中两个异常值都漏掉了(在剩下的 1.2% 模拟中,Grubbs 检验发现了两个异常值中的一个)。相比之下,ROUT 方法在 92.8%的模拟中发现了两个异常值,只有 6%的模拟同时漏掉了两个异常值。

小结

Grubbs 检验法比 ROUT 检验法略胜一筹:从高斯分布中检测单个异常值。

在某些情况下,ROUT 方法在检测两个异常值方面要比迭代Grubbs检验法好得多。

参考文献

Motulsky HM and Brown RE, Detecting outliers when fitting data with nonlinear regression - a new method based on robust nonlinear regression and the false discovery rate, BMC Bioinformatics 2006, 7:123.从http://www.biomedcentral.com/1471-2105/7/123 下载

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.