进行回归分析时,强相关预测变量(或者在更一般情况下,是指线性相关预测变量)会导致估计值不稳定。这通常意味着无法准确解释回归产生的估计值。其原因是,在两个预测变量呈线性相关时,一个变量可用于预测另一个变量的值。另一种说法是,一个变量可以写成另一个变量的线性函数。例如,如果公式X2=3*X1+6为真,则预测变量X1和X2呈线性相关。对于X1的任何给定值,X2值均已知(因此无需估计)。在此情况下,包含X2不会为模型添加X1无法描述的新信息。
在多元回归分析中,该问题称为多重共线性。极端情况下,在一个预测变量与另一个完全线性相关时,完成分析所需的优化算法无法确定任一列的系数估计值。这是因为对于这些参数估计值,会有无限多的潜在解。阐明该概念的示例之一可能涉及两个变量均包含重量值(一个以磅记录,另一个以千克记录)的数据集。由于这些值完全呈线性相关(磅=2.205*千克),包含两者的模型将无法确定其中任何一个的参数估计值。
考虑以下Cox比例风险回归案例。假设只有一个预测变量(x1),且该预测变量的最佳参数估计值有两个。Cox回归模型:
现在,假设添加一个新变量(x2),作为第一个预测变量的副本。已知x1=x2,可以看出,下列方程均与第一个方程等价:
事实上,有无数种方法可以用不同的系数重写该方程,结果值均相同。在统计学中,该模型不可识别。在这种极端情况下,无法简单地计算标准误差、置信区间和P值。
但在实践中更常见的是,预测变量之间不完全呈线性相关,而只是呈强相关。虽然在这些情况下,Prism将能够生成参数估计值,但问题仍然存在,原因在于这种多重共线性会增加参数估计值的不确定性。可以从更宽的置信区间和更大的P值中看出这一点。
如果仅关注使用模型从一组定义的预测变量值中预测未来的结果,则标准误差较大和置信区间较宽可能并非主要问题。但如果关注参数估计值的解释,则存在多重共线性问题。
在Prism中,使用方差膨胀因素(VIF)评价多重共线性。一般经验法则是,VIF大于10表示强多重共线性,并且可能不利于模型拟合。在VIF达到该量级的情况下,可能希望删除具有高VIF的预测变量,并重新调整模型。必要时,可以重复该操作。本页提供了关于VIF的更多详细信息。