散布实际上与Y值相关时,如果将加权选项卡上的选项设置为默认值(无加权),会发生什么情况?当然,答案是“视情况而定”?这取决于分散度有多大,以及Y值的跨度有多大。本文的其余部分将介绍一个示例,并模拟许多数据集,以了解当拟合不当时会发生什么。
我选了一个非常简单的模型 - 一条直线。我对数据进行了模拟,因此直线上任意一点的散布SD均与该点的Y值成正比。下图显示了一个模拟数据集。您可清楚看到,随着直线上升,重复值之间的分散度有所增加。
该直线通过“非线性”回归与数据拟合。Prism不提供差分权重作为其线性回归分析的一部分。“非线性”回归可拟合直线,但在线性回归分析中有许多选项不可用。
红色线使用默认选项 - 不加权;最小化平方和。蓝色线使用相对权重。您期望重复值残差的SD与Y值成正比时,该选择是恰当的。这两条线不相同。
我用Prism中的Monte Carlo分析法模拟了5000个这样的数据集。用不加权和加权(相对权重)回归对5000个模拟数据集的每一个进行拟合。针对就5000个数据集中的每个数据集进行的两种分析,我记录了斜率的最佳拟合值及其标准误差(SE)。
重复值之间的分散度与Y值成正比,因此相对权重适用。这些模拟的结果以蓝色显示。红色的结果显示了回归使用同量加权(默认值)时的结果。盒须图从第25个百分点延伸到第75个百分点,盒中间有一条线(第50个百分点)。须向下延伸至最小值,向上延伸至最大值。
上文左图显示了斜率的最佳拟合值的分布。选择错误的加权方案不会系统性地导致斜率的最佳拟合值过高(太陡)或过低(太平)。实际上,对于不加权拟合和相对权重拟合,斜率的中值最佳拟合值几乎相同。但请注意,不加权所得结果的斜率分布更广泛。由于这些是模拟数据,因此我们知道真实斜率(1.0),且可量化每个模拟数据集的最佳拟合线的斜率与该概念的差距。数据在不使用差分权重(红色)的情况下拟合时,中值误差为0.04610,相比之下,在使用相对权重(蓝色)的情况下模拟数据的中值误差为0.02689。在本示例中,选择错误的加权方案,中值误差增加71%。
上文右图显示了斜率的SE。对所有点采用同量加权进行拟合时,斜率的SE平均要高得多,且更加不一致(范围更宽)。不加权拟合的中值SE比加权拟合的中值SE大73%。由于置信区间的宽度与SE成正比,这意味着不加权拟合时,中值置信区间要宽73%。
由于这些是模拟数据,我们知道真实的人口斜率(它是1.0)。因此,我们可询问每个模拟报告的95%置信区间是否包含真实值。对于相对权重模拟,95%置信区间包括95.3%模拟数据集的真实值。在不加权的情况下分析这些相同的数据集时,只有92.6%的“95%”置信区间包含真实值。
总之,我们在本示例中选择了错误的加权方案时:
•斜率的最佳拟合值不太精确。
•斜率的SE较大,因此置信区间较宽。
•尽管95%的置信区间更宽,但还不够宽。在不足95%的模拟中,“95%”置信区间仅包括真值。
这只是一个示例。对于其他的某些示例,加权方法的选择可能并不重要。同样,对于其他的另一些示例,它可能更重要。选择适当的加权方案是值得一试的。