像线性回归一样,非线性回归假设理想曲线周围的数据分散遵循高斯或正态分布。这一假设引出了熟悉的回归目标:最小化点和曲线之间垂直距离或Y值距离的平方和。然而,实验错误会导致错误的值–异常值。即使是一个单独的异常值也可能影响平方和计算,并导致误导性的结果。
有些人认为,删除异常值 是“作假”。在其可以特别方式删除异常值时 ,特别是只删除妨碍获得您想要结果的异常值时,可视为作假,但留下以供分析的数据中的异常值也是“作假”,其可能导致无效结果。
此处是一种Bayesian方法,其是用于考虑删除异常值的系统方法。一个值己标记为异常值时,存在两种可能性。
•碰巧发生,即使整个分散属于高斯分布,也只在极少数的实验中出现这种巧合(取决于您定义异常值的积极程度)。
•您的数据中包含“不良”的数据点。
哪种可能性更大?
这取决于您的实验系统。
如果实验系统在极少数的实验中产生一个 “不良” 的数据点,则将该点作为异常值消除是有意义的。这更可能是 “不良” 的数据点,而非一个正好远离曲线的“良好” 的数据点。
如果系统非常纯粹和可控,则 很少出现“不良” 的数据点,那么由于偶然(而非错误)情况,该点更可能远离曲线,您应将其其留在曲线中。或者,在这种情况下,可将Q设置为下限值,以便只检测离曲线更远的异常值。