GraphPad Prism 10 Curve Fitting Guide - 何时使用自动异常值去除功能

何时使用自动异常值去除功能

异常值的问题

非线性回归和线性回归一样，都假设理想曲线周围的数据散布服从高斯分布或正态分布。这一假设导致了我们熟悉的回归目标：最小化各点与曲线之间的垂直距离或 Y 值距离的平方和。然而，实验错误可能会导致错误值--异常值。即使是一个异常值，也会主导平方和的计算，并导致误导性的结果。

有些人认为去除异常值就是 "作弊"。当异常值被临时删除时，尤其是当你只删除那些妨碍获得你喜欢的结果的异常值时，可以这样看。但是，将异常值留在您分析的数据中也是 "作弊"，因为这会导致无效的结果。

下面用贝叶斯方法来思考去除异常值的系统方法。当一个值被标记为异常值时，有两种可能性。

•发生了巧合，即使整个散点是高斯分布的，也只有百分之几的实验会发生这种巧合（依赖度取决于你如何积极定义异常值）。

•你的数据中包含了一个 "坏 "点。

哪种可能性更大？

这依赖于你的实验系统。

如果您的实验系统只在百分之几的实验中产生了 "坏 "点，那么将该点作为异常值剔除是合理的。它更有可能是一个 "坏 "点，而不是一个恰好远离曲线的 "好 "点。

如果您的系统是非常纯净和受控的，因此 "坏 "点很少出现，那么这个点远离曲线更有可能是偶然的（而不是错误的），您应该保留它。在这种情况下，您也可以将 Q 设置为较低的值，以便只检测距离更远的异常值。