许多多元回归程序可以自动选择变异性变量。您给程序提供大量变异性数据,程序会决定实际使用哪些变量。自动选择变量的魅力显而易见。你只需将所有数据输入程序,它就会为你做出所有决定。为什么是逐步式?因为自动程序会分步拟合多个模型,从模型中添加(或删除)变量,以找到 "最佳 "模型。
Prism 不提供自动变异性选择功能。
问题在于多重比较。当给定具有 k 个自变量的数据,并指示使用全子集法比较每个可能模型的拟合度时,多元回归程序会比较多少个模型?每个变量都可以从最终模型中包含或排除,因此程序将比较 2k 个模型。本示例中,如果研究者从 20 个变量开始,那么自动变异性选择会比较220个模型(超过一百万个),甚至在考虑交互作用之前。
当你阅读一篇介绍多元回归结果的论文时,你可能根本不知道研究者从多少个变量开始。彼得-弗洛姆(Peter Flom)①解释了为什么这种无知会导致无法解释逐步变量选择的多元回归结果:
如果你掷了十次硬币,得到的是十个正面,那么你就可以肯定发生了一些奇怪的事情。鉴于任何一次掷硬币出现人头的概率都是 0.5,你可以精确地量化这种事件的可能性有多小。如果你让 10 个人每人掷 10 次硬币,其中一人得到 10 个人头,你的怀疑就会减少,但你仍然可以量化这种可能性。但是,如果你让一群朋友(你不计算他们)掷硬币若干次(他们不告诉你有多少次),有人连续得到 10 个人头,你甚至不知道该怀疑到什么程度。这就是逐步推进。
自动变异性选择的后果是普遍而严重的(1,2):
•最终模型拟合得太好。R2过高。
•拟合优度参数值离零太远。这是有道理的。由于绝对值较低的变量已被剔除,剩下的变量的绝对值往往高于其应有的值。
•置信区间太窄,所以你认为你对参数值的了解比实际情况更精确。
•检验参数是否具有统计学显著性时,P 值太小,无法解读。
1.Flom, P. L., & Cassell, D. L. (2007).逐步停止:为什么逐步法和类似的选择方法不好,你应该使用什么方法?东北 SAS 用户组。
2.Harrell, F. (2015).回归建模策略:With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis.第 2 版。Springer.ISBN: 978-3319194240