Please enable JavaScript to view this site.

异常值的问题

非线性回归和线性回归一样,都假设理想曲线周围的数据散布服从高斯分布或正态分布。这一假设导致了我们熟悉的回归目标:最小化各点与曲线之间的垂直距离或 Y 值距离的平方和。然而,实验错误可能会导致错误值--异常值。即使是一个异常值,也会主导平方和的计算,并导致误导性的结果。

去除异常值是 "作弊 "吗?

有些人认为去除异常值就是 "作弊"。当异常值被临时删除时,尤其是当你只删除那些妨碍获得你喜欢的结果的异常值时,可以这样看。但是,将异常值留在您分析的数据中也是 "作弊",因为这会导致无效的结果。

下面用贝叶斯方法来思考去除异常值的系统方法。当一个值被标记为异常值时,有两种可能性。

发生了巧合,即使整个散点是高斯分布的,也只有百分之几的实验会发生这种巧合(依赖度取决于你如何积极定义异常值)。

你的数据中包含了一个 "坏 "点。

哪种可能性更大?

这依赖于你的实验系统。

如果您的实验系统只在百分之几的实验中产生了 "坏 "点,那么将该点作为异常值剔除是合理的。它更有可能是一个 "坏 "点,而不是一个恰好远离曲线的 "好 "点。

如果您的系统是非常纯净和受控的,因此 "坏 "点很少出现,那么这个点远离曲线更有可能是偶然的(而不是错误的),您应该保留它。在这种情况下,您也可以将 Q 设置为较低的值,以便只检测距离更远的异常值。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.