Prism 提供了一种识别和剔除异常值的独特方法,详见参考文献 1.由于这种方法结合了鲁棒回归和异常值剔除,我们称之为ROUT方法。
ROUT 回归方法遵循以下步骤。
1.我们的稳健非线性回归方法用于拟合不受异常值影响的曲线。
2.对稳健拟合的残差进行分析,以识别任何异常值。这一步使用了一种新的异常值检验方法,该方法改编自多重比较检验的错误发现率方法。
3.剔除异常值,对剩余数据进行普通最小二乘回归。
虽然 ROUT 方法需要三个步骤(如上所述),但 Prism 会自动完成所有步骤。您只需选中非线性回归对话框 "拟合 "选项卡上的一个选项:
Prism 就会识别异常值,消除异常值,并拟合剩余的点。异常值会显示在一个单独的表格中,异常值的数量会在主结果表中列出。
Q 的值决定了 ROUT 方法定义异常值的积极程度。数学细节在参考文献 1 中有解释。该值在非线性回归对话框的方法选项卡中设置。
如果将 Q 设置为较高值,则定义异常值的阈值就不会那么严格。这意味着 Prism 将有更大的检验力来检测异常值,但也会更频繁地误检出 "异常值"。
如果将 Q 设置为较低值,则定义异常值的阈值会更严格。这意味着 Prism 检测真正异常值的检验力会减弱,但也会减少误将某个点定义为异常值的几率。
除非您有充分的理由另作选择,否则我们建议您坚持使用 1%的默认值。我们的模拟结果表明,如果所有散点都是高斯散点,Prism 会在大约 2-3% 的实验中错误地发现一个或多个异常值。这并不意味着所有值中有百分之几被宣布为异常值,而是指在百分之几的实验中会检测到一个或多个异常值。如果数据中真的存在异常值,Prism 将以低于 1%的错误发现率检测到它们。
正如我们在参考文献 1 中解释的那样,不等权重对稳健回归并无用处。问题在于异常值会获得过多权重。稳健回归本质上应用的是差分权重,因此添加另一种权重方案是没有意义的。
因此,如果同时选择不等权重和稳健拟合,Prism 会假定权重相等进行拟合。不过,在创建残差表时,它确实会使用您的权重选择。
如果同时选择不等权重和自动异常值去除,Prism 会首先使用稳健回归进行拟合(忽略权重选择)。如参考文献 1 所述,在识别异常值时确实会使用加权因子。然后对异常值去除后的数据进行加权非线性回归。
参考文献
1.Motulsky HM and Brown RE, Detecting outliers when fitting data with nonlinear regression - a new method based on robust nonlinear regression and the false discovery rate, BMC Bioinformatics 2006, 7:123.