Prism提供了一种识别并剔除异常值的独特方法,详见参考文献1。因为这种方法结合了Ro操作差错回归和Out线性清除,我们称之为“ROUT 方法”。
ROUT回归方法遵循以下步骤。
1.我们的稳健非线性回归方法用于拟合不受异常值影响的曲线。
2.分析稳定拟合的残差以识别任何异常值。这一步使用了一个新的异常值检验,该检验根据多重比较的错误发现率检验法改编而来。
3.移除异常值,并对剩余数据执行普通最小二乘法回归。
尽管ROUT方法需要三个步骤(如上所列),但Prism会自动完成所有这些步骤,只需在“非线性回归”对话框的“拟合”选项卡上选择一个选项:
Prism随后识别异常值并消除,且拟合剩余点。异常值将显示在一个单独的表中,异常值数量将在主结果表中列出。
Q值决定了ROUT方法定义异常值的激进程度。参考1解释了相关数学细节。该值在“非线性回归”对话框的“方法”选项卡中进行设置。
如果将Q值设置得较高,定义异常值的阈值就不那么严格了。这意味着Prism检测异常值能力提高,但错误检测“异常值”的频率也会增加。
如果将Q值设置得较低,定义异常值的阈值就更严格。这意味着Prism检测真实异常值的能力将会降低,但错误将一个点定义为异常值的可能性也会降低。
我们建议您坚持使用默认值1%,除非有充分理由选择其他选项。我们的模拟显示,如果所有散射均服从高斯分布,则Prism将在约2-3%的实验中错误地发现一个或多个异常值。这并不意味着所有值的百分之几均被宣布为异常值,而是说在小部分实验中将检测到一个或多个异常值。如果数据中确实存在异常值,则Prism将以低于1%的错误发现率来检测它们。
正如我们在参考1中所解释的,不等加权对于稳健回归来说是没有用的。问题在于异常值可能会得到过多的权重。稳健回归本质上是应用差分权重,因此添加另一个加权方案没有任何意义。
因此,如果您同时选择不等加权和稳定拟合,Prism会假设权重相等来进行拟合。但在创建残差表时,其会使用权重选择。
如果您选择不等加权和自动剔除异常值,Prism将首先使用稳健回归进行拟合(忽略权重选择)。如参考1所述,在识别异常值时,其确实使用了权重因子。然后对剔除异常值的数据进行加权非线性回归。
参考文献
1.Motulsky HM和Brown RE,在用非线性回归拟合数据时检测异常值 - 一种以鲁棒非线性回归和错误发现率为基础的新方法,《BMC生物信息学》2006,7:123。