ROUT法是一种从非线性回归中识别异常值的方法。了解关于ROUT法的更多信息。
简而言之,首先通过采用一种稳健的方法将一个模型拟合至数据中,其中异常值的影响很小。然后使用一种新的异常值检测方法,根据错误发现率,来决定哪些点与模型的预测相差较远,即称为异常值。
当您要求Prism检测列数据堆栈中的异常值时,可简单地采用这种方法。它将您输入的值视为Y值,并拟合Y = M模型,其中M是一个稳健的平均值。[如果您想通过Prism的非线性回归分析来实现这一点,需要给每行指定任意的X值,然后拟合至模型Y = X*0+M中。)
此方法可检测任意数量的异常值(可达样本量的30%)。
在一个数据集中,Prism最少可使用三个值来执行ROUT检验。
ROUT法建立在错误发现率(FDR)的基础上,因此可以指定Q表示最大预期FDR。对Q的解读取决于数据集中是否有异常值。
当没有异常值(且分布完全为高斯分布)时,Q与α极其相似。假设所有数据都来自高斯分布,则Q表示(错误)识别一个或多个异常值的可能性..
数据中存在异常值时,Q表示最大预期错误发现率。如果将Q设为1%,您的目标为不超过1%的识别异常值是假的(实际上只是高斯分布的尾部),至少99%为实际异常值(来自不同的分布)。
我进行了模拟,以比较检测异常值的Grubbs法和ROUT法。简言之,根据高斯分布对数据进行抽样。大多数情况下均有添加异常值(根据具有特定限制的均匀分布得出)。对每项实验设计模拟25,000次后,我列出了零个、一个、两个或两个以上异常值的模拟次数。
当没有异常值时,ROUT检验和Grubbs检验的表现基本相同。为ROUT方法指定的Q值等于您为Grubbs检验设置的α值。
当有一个异常值时,Grubbs检验能够较容易检测到该值。ROUT方法具有更高的漏报率和误报率。换言之,即使模拟只包含一个异常值,该方法也更有可能遗漏异常值,并且更有可能发现两个异常值。这并不令人意外,因为Grubbs检验的目的就是检测一个异常值。尽管两种方法之间的差异很明确,但并不显著。
当在一个小数据集中包含两个异常值时,ROUT检验表现更好。Grubbs迭代检验会受到遮蔽的影响,而ROUT检验则不然。遮蔽是否是个问题取决于样本量以及异常值与其他值平均值的偏离。在非常有可能发生遮蔽的情况下,ROUT检验 显著优于 Grubbs检验。例如,当n = 10且有两个异常值时,Grubbs检验从未发现这两个异常值,并且在98.8%的模拟中两个值均遭到遗漏(在剩余的1.2%模拟中,Grubbs检验发现了两个异常值中的其中一个)。相比之下,ROUT方法在92.8%的模拟中识别出两个异常值,而在6%的模拟中遗漏两个异常值。
总结:
•Grubbs检验略优于ROUT方法,专为以下任务而设计:从高斯分布中检测单个异常值。
•在某些情况下,就检测两个异常值而言,ROUT法要比Grubbs迭代检验好得多。
Motulsky HM和Brown RE,在用非线性回归拟合数据时检测异常值 - 一种以鲁棒非线性回归和错误发现率为基础的新方法,《BMC生物信息学》(2016),7:123。下载自http://www.biomedcentral.com/1471 - 2105/7/123。