Please enable JavaScript to view this site.

稳健回归的需要

像线性回归一样,非线性回归假设理想曲线周围的数据分散遵循高斯或正态分布。这一假设引出了熟悉的回归目标:最小化点和曲线之间垂直距离或Y值距离的平方和。这种执行非线性(或线性回归)的标准方法称为 “最小二乘”

实验错误会导致错误的值,这些值不是高就是过低- 异常值。即使是一个单独的异常值也可能影响平方和计算,并导致误导性的结果。解决该问题的一种方法是执行稳健拟合 使用对违反高斯假设不太敏感的方法。另一种方法是使用自动异常值消除法,识别并移除异常值,然后运行最小二乘回归。Prism提供了两个选择。异常值识别方法实际上首先进行稳健拟合,因此它具有一个基线,一个点离该基线太远时,即定义为异常值。然后在去除这些异常值后,对剩余点进行标准最小二乘拟合。

稳健回归的工作方法

根据数值分析方法库(1)中的建议,我们基于稳健拟合方法,假设曲线周围的变化遵循洛伦兹分布,而非高斯分布。这两种分布均是t分布族的一部分:

图中最宽分布,df=1的t分布,也称为洛伦兹分布或西分布。洛伦兹分布有宽尾,因此异常值相当普遍,因此对拟合的影响很小。

我们修改了Marquardt非线性回归算法,适应残差洛伦兹(而非高斯)分布的假设,并解释参考文献2中的细节。

何时选择稳健非线性回归有意义?

在Prism中,稳健回归的主要用途是作为“基线”,删除异常值。为更好理解去除异常值的方法(从稳健回归开始),可能想要尝试稳健回归。如果唯一目的是从标准曲线内推,且该标准曲线有一个或多个异常值,可能也会发现它很有用。

我们建议您在大多数情况下避免使用稳健回归(至少在由Prism实施的情况下),因为其存在以下缺点:

稳健回归无法计算参数的标准误差或置信区间。

稳健回归不能绘制置信度或预测带。

稳健回归无法计算参数相互交织的程度。其不能计算协方差矩阵或依赖值。

稳健回归无法比较两个模型或两个数据集的拟合程度。

在大多数情况下,无法比较模型并不重要。但无法提供诊断信息(SE、CI、协方差矩阵、相关性、置信度和预测带)严重限制了稳健回归在大多数研究中的实用性。

 

参考文献                                                                         

1.Press WH、Teukolsky SA、Vettering WT、Flannery BP: 科学计算艺术的数值分析方法库。 纽约州纽约:Cambridge University Press;1988。

2.Motulsky HM和Brown RE,在用非线性回归拟合数据时检测异常值 - 一种以鲁棒非线性回归和错误发现率为基础的新方法,《BMC生物信息学》(2016),7:123。下载为pdf

 

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.