由于多重共线性会干扰多元回归结果的正确解读,因此理解其概念较为重要。
如需理解多重共线性,首先考虑一个荒谬的示例。假设您正在运行多元回归,以便根据年龄和体重预测血压。现在假设您已输入以磅为单位的体重和以千克为单位的体重作为两个单独的X变量。这两个X变量测量完全相同的事物-唯一的区别是这两个变量具有不同的单位。整体拟合的P值可能较低,并告知您血压与年龄和体重呈线性关系。然后您将查看单个的P值。以磅为单位的体重的P值将非常高-在方程中纳入其他变量后,其未添加任何新信息。由于此方程已考虑到以千克为单位的体重对血压的影响,因此在该方程中加入未添加任何信息的以磅为单位的体重变量。但出于相同原因,以千克为单位的体重的P值也将是极高的。在将以磅为单位的体重纳入模型中后,不会通过纳入以千克为单位的体重变量而改善拟合优度。当您看到这些结果时,您可能会误地得出结论,认为由于两个体重变量均具有极高的P值,因此体重根本不影响血压。问题是,P值仅评估每个变量的增量效应。在本示例中,两个变量对模型均无任何增量效应。这两个变量是共线的。
该示例有点荒谬,因为除单位外,这两个变量完全相同。血压示例--将血压作为年龄、体重和性别的函数进行建模-该示例更为典型。如果年长受试者的体重往往比年轻受试者更重,则很难区分年龄和体重的影响。如果男性的体重比女性更重,则很难区分体重和性别的影响。由于X变量是相互缠绕的,则多重共线性将使得难以解读多元回归结果。
多重共线性是多元回归的一个本质问题,且其会影响您理解数据的能力。Prism所能做的所有事就是警告您该问题。其通过询问根据其他X变量(忽略Y变量)预测每个自变量(X)的程度来做到这一点,以两种方式表达结果:
•R2具有其他X变量。可根据其他X变量预测一个X变量中的方差的分数。Y变量并非计算的一部分。
•方差膨胀因子(VIF)。如果X变量不包含冗余信息,您可预计VIF等于1。如果X变量共线(包含冗余信息),则VIF将大于1。VIF与R²有关,具体关系方程如下:VIF=1/(1-R2)。
一些程序也可计算公差,但Prism不予以计算。对于每个变量,您自身可简单地将其计算为1.0-R2 。
如果R2且某些X变量的VIF也较高时,多重共线性将是您的数据中的一个问题。多高才算高?任何阈值是任意的,但存在一条经验法则。如果任何一个R2 值大于0.75(因此VIF大于4.0),猜想多重共线性可能成为一个问题。如果任何一个R2 值大于0.90(因此VIF大于10),随后得出结论是多重共线性是一个严重问题。
如果多重共线性是一个大问题,则多元回归的结果可能未必有帮助。解决该问题的可能方法:
1.确保您未纳入冗余信息。假设您的研究包含男性和女性,因此您有一个自变量“女性”,其中1代表女性且0代表男性,并且另一个变量“男性”,其中0代表女性,1代表男性。您可采用共线性,因为这两个变量对相同的信息进行编码。仅需一个变量。
2.组合变量。相关变量的一个示例是将体重和身高均纳入模型中,因为更高的人也往往更重。解决该问题的一个方式是根据身高和体重来计算体重指数(BMI),并仅在模型中纳入单变量,而非同时纳入身高和体重。
3.在某些情况下,从模型中移除一个或多个变量会将多重共线性降低至可接受水平。
4.在其他情况下,您可能能够通过在更广泛的实验条件下收集数据来降低多重共线性。
这是一个难题,且您可能需要在其他地方寻求统计指导。
•不要混淆这些单个R2具有总体R2的每个X变量的值。单个R2值量化了根据其他X变量预测每个X变量的程度。总体R2 量化了整个多元回归模型的拟合优度。一般来说,您希望总体R2值较高(良好拟合),而所有的单个R2 值较低(几乎不存在多重共线性)。
•多重共线性借助等于VIF平方根的因子,增加了置信区间的宽度(其与方差的平方根成比例)。如果一个变量的VIF为9,则此系数的置信区间宽度将是并非多重共线性时的三倍。
•您仅有两个自变量时,此问题称为 共线性。有三个或更多自变量时,使用“多重共线性”一词。