许多多元回归程序可自动选择变量。您给该程序提供很多变量的数据,而其决定实际使用哪些变量。自动变量选择的吸引力显而易见。只要将所有数据输入该程序,其就能为您作出所有决定。为什么逐步回归? 因为该自动程序会逐步拟合几个模型,在模型中添加(或删除)变量以找到“最佳”的一个。
Prism不提供自动变量选择。
问题在于多重比较。给定k个独立变量的数据,并要求使用全子集方法来比较每个可能模型的拟合度时,一个多元回归程序会比较多少个模型?每个变量均可被包含在最终模型中或从最终模型中排除,因此程序将比较2k个模型。例如,如果研究者从20个变量开始研究,则自动变量选择会比较220模型(超过一百万),甚至在考虑交互前。
阅读一篇描述多元回归结果的论文时,您可能甚至不知道研究者开始研究的变量的数量。Peter Flom(1)解释了为什么这种忽略使得不可能用逐步变量选择来解读多元回归的结果:
如果扔硬币十次,十次均得到正面,则可肯定这是一件奇怪的事情。您可量化这种事件发生的可能性有多大,因为任何一次投掷的概率均是0.5。如果您让10个人每人扔硬币10次,其中一个人得到10次正面,您就不会那么怀疑了,但仍可量化可能性。但如果您让一群朋友扔硬币(您不计数)几次(不告诉您有多少次),有人连续得到10次正面,您甚至不知道有多可疑,这即是逐步回归。
自动变量选择的后果是普遍和严重的(1,2):
•最终的模型拟合非常好。R2过高。
•最佳拟合参数值远大于零。这很有道理。由于具有低绝对值的变量已被消除,剩余的变量的绝对值往往比它们本应具有的更高。
•置信区间过窄,因此您认为您知道的参数值比证明的参数值更精确。
•检验参数是否具有统计学显著性时,P值太小且无法解读。
1.Flom,P. L.和Cassell,D. L.(2007)。停止使用逐步回归法:为什么逐步回归和相似的选择方法不好,您应用什么方法。NorthEast SAS Users Group。
2.Harrell,S.(2015),回归建模策略:应用于线性模型、逻辑和顺序回归以及生存分析。第2版。Springer。ISBN:978-3319194240