R² 可以量化模型与数据的拟合度,因此这似乎是一种简单的模型比较方法。这听起来确实很简单 - 选择R²值较大的模型。这种方法的问题是增加更多的参数不会带来任何损失。因此,参数越多的模型弯曲和扭曲越多,越接近点,因此R²几乎总是更高。如果使用R² 作为选择最佳模型的标准,则几乎总是选择参数最多的模型。
调整后R² 总是比R²值低(除非只拟合一项参数)。以下方程说明了原因。
上述方程示出了如何计算调整后R² 。回归直线或曲线的残差平方和具有n-K个自由度,其中,n是数据点的数量,K是回归拟合的参数数量。总平方和是从水平线到所有Y值平均值的距离的平方和。由于其只有一项参数(平均值),因此自由度等于n-1。
K=1时,调整后R² 和普通R² 完全相同。K>1时,调整后R² 小于普通R²。
其中一种用于比较模型的快速简单方法似乎是选择一个调整后R²较小的模型。选择在“诊断”选项卡上报告该值。
采用调整后R²比较模型 是采用多元线性回归比较模型拟合度的标准方法。基于充分理由,这并非非线性回归标准。Speis和Neumeyer(1)进行了模拟,显示使用调整后R² 是在竞争模型中做出选择的一种不利方式。取而代之的是,我们建议您使用额外平方和F检验或比较AICc。如果通过比较调整后R²来比较模型,则确保对所有拟合度使用的数据相同,加权相同。但即便如此,也要知道,按照AICc的评估,拟合度差异很大的模型的R²值可能仅 在小数点(1)后的第三到第五位之间存在差异。
Prism不会使用线性回归报告调整后R², 但可以使用非线性回归拟合直线。
如果X和Y完全无线性相关性,则预计最佳拟合斜率为0.0。如果分析了许多随机选择的样本,则一半样本的斜率为正,一半样本的斜率为负。但在所有这些情况下,R² 将为正(或零)。R² 永远不能为负(除非约束斜率或截距,使其比水平线更难拟合)。相比之下,调整后R² 可能为负。如果分析许多随机选择的样本,则预计调整后R² 一半样本为正,另一半样本为负。
此处提供了一种关于区别的简单理解方法。R² 可以量化正在分析的数据样本中的线性关系。即使无潜在关系,也几乎可以肯定在那个样本中存在某种关系。调整后R²比R²小也是对潜在群体中关系程度的最佳估计。
1. Spiess,A.-N.和Neumeyer,N.,对R2作为药理学和生物化学研究中非线性模型的不充分测量的评价:蒙特卡洛方法。《BMC药理学》10,6-6(2010)。