强相关的预测因子,或更普遍地说,线性相关的预测因子,会导致估计不稳定。什么是“线性相关的预测因子”?这仅仅是指一个变量可写成另一个变量的线性函数。例如,如果X2=3*X1+6,变量X1和X2将为线性相关。这是一个非常简单的线性相关性的示例,但通过该示例您可以看到,只要知道X1的值,您就会自动知道X2的值。因此,作为预测因子,如果X1已包括在内,则X2不会向模型添加新的信息。
在预测建模中,将该问题称为多重共线性。在极端情况下,如果模型中的两个X列完全相等,则优化算法无法确定任一列的系数估计值。这是因为有无限多的解决方案。如需更清楚地查看这一点,考虑一个简单的情况,其中估计的逻辑回归模型是logit(Y)=1+2*X1。现在,假设我们创建了X2,其是X1的一个重复数,并尝试用两个预测因子重新拟合模型。预测模型可以用许多等效的方式来表示,例如:
logit(Y)=1+X1+X2
logit(Y)=1+2*X1
logit(Y)=1+0.5*X1+1.5*X2
事实上,存在无限多的方式可以用不同的系数重写该方程。在统计学中,该模型被称为不可识别。在这种极端情况下,无法计算标准误差、置信区间和P值。
事实上,更常见的是预测因子列是强相关的,但不是完全相关的。尽管在此情况下,Prism会产生估计值,但也会出现类似问题。多重共线性增加了参数估计值的不确定性,从而增加了置信区间和P值。
如果您唯一关心的是预测,则标准误差较大实际上不是问题。然而,如果您对解读系数估计值的大小感兴趣(例如,X1越大,成功的概率越高),则多重共线性是一个问题。
在Prism中,可使用方差膨胀因子(VIF)评估多重共线性。一般的经验法则是,VIF大于10表示强多重共线性。在此情况下,您可能想要移除一个具有较高VIF的列,重新拟合模型并在必要时重复。在此处对VIF进行更详细的描述。
您也可选择让Prism输出相关矩阵。这以矩阵形式呈现了预测因子之间的成对相关性。与模型中其他变量高度相关的变量将导致产生估计标准误差、置信区间和P值的问题。