自动清除异常值非常有用,但在某些情况下会导致无效(和误导性)结果,因此应谨慎使用。您可以要求 Prism 对异常值进行简单识别和计数。或者也可以要求它将识别出的异常值从拟合数据集中排除。
如果选择排除或识别异常值,请设置ROUT 系数 Q,以确定 Prism 如何积极地定义异常值。
我们建议使用 1%。我们的模拟显示,如果所有散点都是高斯散点,Prism 会在大约 2-3% 的实验中错误地发现一个或多个异常值。如果数据中真的存在异常值,Prism 将以低于 1%的错误发现率检测到它们。参见参考文献 1。
如果将 Q 设为更高的值,定义异常值的阈值就不会那么严格。这意味着 Prism 将有更大的检验力来检测异常值,但也会更频繁地误检出 "异常值"。如果将 Q 设置为较低值,则定义异常值的阈值会更严格。这意味着 Prism 检测真正异常值的检验力会减弱,但也会减少误将某个点定义为异常值的几率。
如果将 Q 设为 0,Prism 将使用普通非线性回归对数据进行拟合,而不识别异常值。
选中该选项(在 Prism 8 中引入)可创建一个新的分析选项卡,其中包含已清理数据表(无异常值数据)。Prism 不会自动绘制净化数据表和图表,但可以轻松完成(新建...现有数据图表)。
Prism 总是创建异常值分析表,没有不显示异常值的选项。
Prism 提供四种拟合方法:
这是标准的非线性回归。Prism 将数据点与曲线之间垂直距离的平方和最小化,简称 最小二乘法。如果假设残差分布(各点与曲线的距离)为高斯分布,则可以选择这种方法。
稳健回归受异常值的影响较小,但不能生成参数的置信区间,因此作用有限。它在 Prism 中的主要用途是作为异常值检测的第一步。它是确定残差是否 "过大"的基线,因此应宣布该点为异常值。单独执行稳健回归很少有帮助,但 Prism 可以根据需要为您提供这种选择。
当每个 Y 值都是您统计的对象或事件的数量时,请选择泊松回归。这些数值必须是实际计数,不得以任何方式归一化。如果机器显示您的样本每分钟有 98.5 个放射性衰变,但您要求计数器对每个样本计数 10 分钟,那么它就计数了 985 个放射性衰变。这就是您应该输入的泊松回归值。如果 Y 值是归一化计数,而不是实际计数,则不应选择泊松回归。
非线性回归以迭代方式进行,并从每个参数的初始值开始。选中 "不拟合曲线"可查看初始值生成的曲线。如果曲线与数据相差甚远,则返回初始参数选项卡,输入更好的初始值。重复上述步骤,直到曲线接近数据点。然后返回方法选项卡,选中 "拟合曲线"。这通常是诊断非线性回归问题的最佳方法。
非线性回归是一个迭代过程。它从参数的初始值开始,然后反复改变这些值以提高拟合优度。当改变参数值使拟合优度发生微不足道的变化时,回归就会停止。
Prism 可以通过三种方式定义收敛准则。
•快速。如果要拟合庞大的数据集,可以使用 "快速 "收敛定义来加快拟合速度。在这种情况下,当连续两次迭代对平方和的改变小于 0.01% 时,非线性回归将被定义为收敛。
•中(默认)。当连续五次迭代的平方和变化小于 0.0001%时,非线性回归即收敛。
•严格。如果您难以获得合理的拟合结果,不妨试试更严格的收敛定义。在这种情况下,非线性回归迭代直到连续五次迭代平方和变化小于 0.00000001% 时才会停止。这种方法并不常用,但值得一试。不总是使用最严格选择的唯一原因是,完成计算需要更长的时间。对于小数据集来说,这并不重要,但对于大数据集或运行脚本分析许多数据表时,这就很重要了。
在拟合曲线时,Prism 会在迭代次数达到一定程度后停止。默认值为 1000,几乎没有理由输入不同的值。其中一个原因是运行脚本自动分析许多数据表,每个表都有许多数据点。拟合速度可能很慢,因此降低最大迭代次数是有意义的,这样 Prism 就不会浪费时间去拟合不可能拟合的数据。
对数据点进行不同的加权通常很有用。了解原因。
Prism 在非线性回归的 "方法"选项卡上提供了七种选择:
无加权。回归最常用的方法是最小化数据与直线或曲线的垂直距离的平方和。离曲线较远的点对平方和的贡献较大。靠近曲线的点对平方和的影响很小。这是有道理的,因为你预期实验散点在曲线的所有部分平均都是相同的。
按 1/Y^2 加权。在许多实验情况下,当 Y 值较高时,你期望点与曲线的平均距离(或者说距离的平均绝对值)会较高。散度较大的点的平方和会大很多,因此在计算中占主导地位。如果希望相对距离(残差除以曲线高度)保持一致,则应按 1/Y2 加权。
按 1/Y 加权。 当散点图服从泊松分布时--当 Y 代表定义空间中的对象数量或定义区间中的事件数量时,这种选择非常有用。
按1/YK加权。 也称为 "一般加权"。更多信息
按 1/X 或 1/X2 加权。这些选择很少使用。只有当这些加权方案是您所在领域的标准(如生物测定的线性拟合)时才会选择。
按1/SD2加权。如果在每个 X 处输入重复的 Y 值(例如三重复),很容易根据重复的散布情况对点进行加权,当三重复相距较远,因此标准偏差(SD)较高时,给点的权重较低。但是,除非您有大量的重复样本,否则这并没有多大帮助。构成一个均值的三重复样本可能偶然相差很远,但该均值可能与其他均值一样准确。加权需要基于散点的系统变化。当您想使用 Prism 中没有的加权方案时,选择1/SD2加权最为有用。在这种情况下,以平均值和 SD 值输入数据,但以 "SD "加权值输入在其他地方为该点计算的值。换句话说,您在 SD 子列中输入的值实际上不是标准偏差,而是在其他地方计算的加权因子。
加权注意事项
•如果您已经对数据进行了标准化处理,那么加权就很少有意义了。
•模拟可以告诉您,如果选择了错误的加权方案,会产生多大的差异。
•如果您选择了不等权重,Prism在绘制残差图时会考虑到这一点。
•如果在拟合方法部分选择稳健回归,则加权方法部分的某些选项将不可用。请注意,您选择的加权方式将对 Prism 计算和绘制的残差以及如何识别异常值产生影响。异常值检测和处理选项也可以在方法选项卡中找到,而残差图的绘制选项可以在非线性回归的诊断选项卡中找到。
•如果要求 Prism 剔除异常值,加权选择不会影响第一步(稳健回归)。然后通过查看加权残差的大小来识别异常值。最后,对清理后的数据(无异常值)进行加权回归拟合。

选择是拟合所有数据(如果输入了单个重复数据,则拟合单个重复数据;如果输入了 SD 或 SEM 和 n,则拟合 SD 或 SEM 和 n),还是只拟合均值。
如果只拟合均值,Prism 会 "看到"较少的数据点,因此参数的置信区间往往较宽,比较其他模型的检验力也较弱。出于这些原因,在可能的情况下,您 应该选择让回归将每个重复数据视为一个点,而不是只看到均值。
问题的关键在于独立性。回归的一个重要假设是所有数据点的残差都是独立的。下面是一个重复点不独立的本示例,因此您希望只拟合平均值:您进行了一项剂量反应实验,在每个剂量下使用不同的动物进行了一式三份的测量。这三次测量结果并不独立,因为如果一只动物的响应者恰好多于其他动物,那么所有重复样本的值都可能偏高。由于重复数据不是独立的,您应该拟合平均值,而不是单个重复数据。
如果您输入的数据是均值、n、SD 或 SEM,Prism 会让您选择只拟合均值,或考虑 SD 和 n。
1.Motulsky HM and Brown RE, Detecting outliers when fitting data with nonlinear regression - a new method based on robust nonlinear regression and the false discovery rate, BMC Bioinformatics 2006, 7:123.