Please enable JavaScript to view this site.

异常值

谨慎使用

自动异常值删除非常有用,但在某些情况下,会导致产生无效(和误导性)结果,因此应该谨慎使用。您可要求Prism仅识别和计算它识别为异常值的值。或者,可要求它从拟合的数据集中排除已识别的异常值。

Rout系数

如果选择排除或识别异常值,则设置ROUT系数Q,以确定Prism如何定义异常值。

我们建议使用1%的值。我们的模拟显示,如果所有散射均服从高斯分布,则Prism将在约2-3%的实验中错误地发现一个或多个异常值。如果数据中确实存在异常值,则Prism将以低于1%的错误发现率来检测它们,见参考文献1。

如果将Q值设置得较高,定义异常值的阈值就不那么严格了。这意味着Prism检测异常值能力提高,但错误检测“异常值”的频率也会增加。如果将Q值设置得较低,定义异常值的阈值就更严格。这意味着Prism检测真实异常值的能力将会降低,但是错误地将一个点定义为异常值的可能性也会降低。

如果将Q设置为0,则Prism将使用普通的非线性回归来拟合数据,而不识别异常值。

创建已清理数据表

选中该选项(随Prism8一起引入)以创建一个新的“分析”选项卡,其中包含一个已清理数据(无异常值的数据)表。Prism不会自动绘制该已清理数据表,但很容易做到(新建..现有数据图表)。

Prism始终创建一个异常值的“分析”选项卡表,且没有不显示该表的选项。

拟合方法

Prism提供了四种拟合法:

最小二乘

这是标准的非线性回归。Prism尽可能减少数据点和曲线之间垂直距离的平方和,简称为最小平方。如果假设残差的分布(点到曲线的距离)为高斯分布,则这属于适当选择。

稳健回归

稳健回归受异常值的影响较小,但它不能为参数生成置信区间,因此用处有限。它在Prism中的主要用途是作为异常值检测的第一步。这是确定残差是否“太大”的基线,因此该点应宣布为异常值。单独执行稳健回归毫无用处,但是如果您愿意,Prism会为您提供这种选择。

泊松回归

在每个Y值均是您计算的对象或事件的数量时,选择泊松回归。这些必须是实际的计数,而不是任何形式的标准化。如果一台机器显示,样本每分钟有98.5个放射性衰减,但您要求计数器对每个样本计数十分钟,则其计数得到985个放射性衰减。这是您应该为泊松回归输入的值。如果Y值是标准化计数,而非实际计数,则不应选择泊松回归。

“不拟合”

非线性回归迭代运行,从对于每项参数的初始值开始。选中“不拟合曲线”,查看由初始值生成的曲线。如果曲线远离数据,返回“初始参数”选项卡,为初始值输入更好的值。重复操作,直至曲线接近点。然后返回“方法”选项卡,并选中“拟合曲线”。这通常是诊断非线性回归问题的最佳方法。

收敛准则

非线性回归是一种迭代过程。其从初始值开始,然后重复改变这些值以增加参数的拟合优度。在改变参数值使拟合优度发生微小变化时,回归停止。

有多严格?

Prism允许您以三种方式定义收敛准则。

快速。如果您正在拟合大量数据集,则可以使用“快速”收敛定义来加快拟合速度。通过这种选择,将非线性回归定义为在连续两次迭代的平方和变化小于0.01%时收敛。

中等(默认)。将非线性回归定义为在连续五次迭代的平方和变化小于0.0001%时收敛。

严格。如果您很难找到一个合理的拟合点,则您可能想要尝试更严格的收敛定义。通过这种选择,非线性回归迭代不会停止,直到连续五次迭代的平方和变化小于0.00000001%。这通常不会有帮助,但可能值得一试。并不总是使用最严格的选择的唯一原因是计算过程的耗时较长。这对于小数据集来说不重要,但对于大数据集或者在您运行脚本来分析许多数据表时显得十分重要。

最大迭代次数

拟合曲线时,经过多次迭代后,Prism将停止。默认值为1000,没有理由输入不同的值。其中一个原因是,如果您运行一个脚本来自动分析许多数据表,每个数据表均有许多数据点。拟合可能足够慢,因此降低最大迭代次数是有意义的,这样Prism就不会浪费时间尝试拟合不可能的数据。

加权法

对数据点进行不同加权通常很有用。了解原因。

Prism在非线性回归的“方法”选项卡上提供了七种选择:

无权重。 回归通常是通过最小化数据到直线或曲线的垂直距离的平方和来完成。离曲线更远的点对平方和贡献更大。离曲线较近的点贡献很小。这言之有理,平均而言,期望实验散布在曲线的所有部分上均相同。

用1/Y^2加权。 在许多实验情况下,Y值较高时,您期望曲线上点的平均距离(或者更确切地说,距离的平均绝对值)较高。具有较大散布的点将具有更大的平方和,从而主导计算。如果您期望相对距离(残差除以曲线高度)是一致的,则您应该用1/Y2加权。

用1/Y加权。 散布遵循泊松分布时,该选项是有用的--当Y代表定义空间中的对象数量或定义区间中的事件数量时。

用1/Y加权K又称“一般加权”。延伸阅读。

用1/X或1/X²加权 这些选择很少被使用。仅当其是您所在领域的标准时,才选择这些加权方式,例如生物测定的线性拟合。

用1/SD²加权 如果您在每个X上输入重复数Y值(比如说三重复制),则很容易通过重复数的散布来为点加权,当三重复制相隔很远时,给出一个较少加权的点,因此标准偏差(SD)较高。但是除非您有大量的重复数,否则这没有多大帮助。构成一个平均值的三重复制可能随机相隔很远,但该平均值可能和其他平均值一样精确。加权需要基于 散布的 系统性改变。用1/SD²加权的选择 在您想要使用Prism中不可用的加权方案时最有用。在此情况下,输入数据作为平均值和SD,但输入作为您在其他地方为该点计算的“SD”加权值。换言之,您在SD子列中输入的值实际上并非标准偏差,而是在其他地方计算的加权因子。

关于加权的说明

如果数据已标准化,则加权几乎没有意义

模拟可显示在您选择错误的加权方式时,会存在多大的差异?

如果选择不等加权,则在绘制残差时,Prism考虑到这一点

Prism在计算时,会考虑加权。

了解加权数学以及Prism如何进行加权相同

如果您在“拟合方法”部分选择稳健回归,则“权重方法”部分中的某些选项将不可用。请注意,您选择的加权将对Prism计算的残差和图形以及其如何识别异常值产生影响。另外,异常值检测和处理选项也可在“方法”选项卡上找到,而参考的曲线图图表选项则可在非线性回归的“诊断”选项卡上找到。

如果您要求Prism移除异常值,则加权选择不会影响第一步(稳健回归)。然后,通过查看加权残差的大小来识别异常值。最后,将清理后的数据(无异常值)与加权回归进行拟合。

重复数据

选择是否拟合所有数据(如果您输入了它们,则为单个重复数,或如果以这种方式输入数据,则考虑SD或SEM和n)或仅拟合平均值。

如果您只拟合该平均值,则Prism将“看到”更少的数据点,因此参数的置信区间往往会更宽,且比较替代模型的能力也更小。出于这些原因,如有可能,应选择让回归将每个重复数看作一个点,而非只看平均数。

该问题归结为独立性问题之一。回归的一个重要假设是所有数据点的残差均是独立的。举个示例,其中的重复数并非独立的,因此您只想拟合平均值: 您进行了一个剂量反应实验,在每个剂量下用不同的动物进行三次测量。这三次测量并非独立的,因为如果一只动物碰巧比其他动物反应更快,所有的重复数均可能具有高位值。由于重复数并非独立的,因此您应该拟合平均值而非单个重复数。

如果您将数据输入为平均值、n和SD或SEM,则Prism可让您选择仅拟合平均值,或考虑SD和n。如果进行第二次选择,则Prism将从最小二乘回归法中精确地计算出与您在输入原始数据时获得的相同结果。

参考文献                                                                        

1.Motulsky HM和Brown RE,在用非线性回归拟合数据时检测异常值 - 一种以鲁棒非线性回归和错误发现率为基础的新方法,《BMC生物信息学》(2016),7:123。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.