强相关预测因子,或者更笼统地说,线性依赖度预测因子,会造成估计的不稳定性。什么叫 "线性依赖度预测因子"?简单地说,就是一个变量可以写成另一个变量的线性函数。例如,如果 X2 = 3*X1 + 6,变量 X1 和 X2 将是线性依赖度变量。这只是线性依赖度的一个非常简单的本示例,但通过这个例子,你可以看到,只要知道 X1 的值,就能自动知道 X2 的值。因此,作为一个预测因子,如果 X1 已经包含在模型中,X2 就不会给模型增加新的信息。
在预测建模中,这个问题被称为多重共线性。在极端情况下,如果模型中的两个 X 列完全相等,优化算法就无法确定任何一列的系数估计值。这是因为存在无限多的解。为了更清楚地理解这一点,请考虑一个简单的案例,即估计的逻辑回归模型为 logit(Y) = 1 + 2*X1。现在,假设我们创建了 X2,它是 X1 的复制品,并尝试用这两个预测因子重新拟合模型。预测模型可以用多种等价方式表示,例如
logit(Y) = 1 + X1 + X2
logit(Y) = 1 + 2*X1
logit(Y) = 1 + 0.5 * X1 + 1.5 * X2
事实上,这个等式有无数种方法可以用不同的系数重新书写。在统计学中,这个模型被称为不可识别模型。在这种极端情况下,标准误差、置信区间和 P 值都无法计算。
在实践中更常见的情况是预测因子列具有强相关性,但并非完全相关。虽然 Prism 可以在这种情况下生成估计值,但也会出现类似的问题。多重共线性会增加参数估计的不确定性,从而增加置信区间和 P 值。
如果您只关心预测,那么标准误差大实际上并不是问题。但是,如果您有兴趣解读系数估计值的大小(例如,X1 越大,成功的概率就越高),那么多重共线性就是一个问题。
在 Prism 中,您可以使用方差膨胀因子(VIF)来评估多重共线性。一般经验法则是,VIF 大于 10 表示多重共线性很强。在这种情况下,您可能需要移除其中一列 VIF 值较高的列,重新拟合模型,必要时再重复一次。此处对 VIF 有更详细的描述。
您还可以选择让 Prism 输出相关矩阵。这将以矩阵形式显示预测因子之间的成对相关性。与模型中其他变量高度相关的变量会给估计标准误差、置信区间和 P 值带来问题。