Please enable JavaScript to view this site.

什么是多重共线性?

理解多重共线性的概念非常重要,因为它会干扰对多元回归结果的正确解读。

要理解多重共线性,先看一个荒谬的本示例。假设您正在运行多元回归,根据年龄和体重预测血压。现在想象一下,您输入了以磅为单位的体重和以公斤为单位的体重作为两个独立的 X 变异性变量。这两个 X 变量测量的是完全相同的东西--唯一的不同是这两个变量的单位不同。总体拟合值的 P 值很可能很低,告诉您血压与年龄和体重呈线性相对权重关系。然后再看单个 P 值。以磅为单位的体重的 P 值会非常高--在方程中包含其他变异性变量后,这个变量没有增加新的信息。因为等式中已经考虑了以公斤为单位的体重对血压的影响,所以在等式中加入以磅为单位的体重这个变异性变量不会增加任何新的信息。但由于同样的原因,以公斤为单位的体重的 P 值也会很高。在将以磅为单位的体重加入模型后,拟合优度并没有因为加入以公斤为单位的体重这一变量而得到改善。看到这些结果,您可能会误认为体重根本不会影响血压,因为两个体重变量的 P 值都非常高。问题在于,P 值只能评估每个变量的增量效应。在本示例中,两个变量对模型都没有增量效应。这两个变量是共线的。

这个示例有点荒唐,因为这两个变量除了单位外完全相同。血压的本示例--将血压作为年龄、体重和性别的函数来建模--更为典型。如果年龄较大的受试者往往比年龄较小的受试者体重更重,那么就很难将年龄和体重的影响分开。如果男性体重高于女性,则很难将体重和性别的影响分开。由于 X 变量相互交织,多重共线性将使多重回归结果难以解释。

多重共线性的量化

多重共线性是多元回归的一个固有问题,它可能会让你无法理解数据。Prism 所能做的就是提醒你注意这个问题。它通过询问每个自变量(X)能从其他 X 变量(忽略 Y 变量)中预测出多少,用两种方式表达结果:

与其他 X 变异性变量的R2。 一个 X 变量的变异性中可以从其他 X 变量预测到的部分。Y 变量不参与计算。

方差膨胀因子 (VIF)。 如果 X 变量不包含冗余信息,则 VIF 等于 1。如果 X 变量具有共线性(包含冗余信息),那么 VIF 将大于 1。VIF 与R2的关系式如下VIF=1/(1-R2)。

有些程序还会计算容差,但 Prism 不会。您可以自己轻松计算出每个变量的变异性,即 1.0 -R2

多重共线性较高时

如果某些 X 变量的R2和 VIF 很高,那么数据中就存在多重共线性问题。高到什么程度?任何阈值都是任意的,但这里有一个经验法则。如果任何R2值大于 0.75(因此 VIF 大于 4.0),则怀疑多重共线性可能存在问题。如果任何一个R2值大于 0.90(因此 VIF 大于 10),那么就可以断定多重共线性是一个严重的问题。

如果多重共线性是个大问题,那么多元回归的结果不太可能有帮助。解决问题的可能方法

1.确保不包含冗余信息。假设您的研究既包括男性也包括女性,因此您有一个自变量 "女性",女性为 1,男性为 0;另一个自变量 "男性",女性为 0,男性为 1。由于这两个变量编码相同的信息,因此您引入了共线性。只需要一个变量。

2.合并变量。相关变量的本示例是在模型中同时包含体重和身高,因为身高较高的人往往体重也较重。解决这个问题的一种方法是根据身高和体重计算出身体质量指数 (BMI),并在模型中只包含这一个变异性变量,而不是同时包含身高和体重。

3.在某些情况下,从模型中移除一个或多个变量可以将多重共线性降低到可接受的水平。

4.在其他情况下,您可以通过在更大范围的实验条件下收集数据来降低多重共线性。

这是一个棘手的问题,您可能需要在其他地方寻求统计指导。

注意事项

不要混淆每个 X 变异性的R2值和总体R2 值。单个R2值量化了每个 X 变量对其他 X 变量的预测能力。总体R2量化的是整个多元回归模型的拟合优度。一般来说,您希望总体 R2 值高(拟合优度高),而所有单个R2值低(多重共线性小)。

多重共线性会增加置信区间的宽度(与方差的平方根成正比),其系数等于 VIF 的平方根。如果一个变量的 VIF 为 9,则该系数的置信区间比不存在多重共线性的情况下要宽三倍。

当你只有两个自变量时,这个问题就叫做共线性。如果有三个或更多,则称为多重共线性

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.