模型有两个或更多参数时(几乎总是如此),这些参数可能相互交织。
参数交织意味着什么?拟合模型后,更改一项参数的值,但不更改其他参数。曲线远离数据点。现在,尝试通过更改其他参数使曲线回到数据点附近。如果能使曲线更接近数据点,则参数相互交织。如果可将曲线恢复到其原始位置,则参数是冗余的。
Prism可通过报告相关性矩阵或报告依赖度来量化参数之间的关系。
您可以解读依赖度而不知道其计算方式。如果想要了解该值的计算方式,请继续阅读。
该示例是指数衰减(摘自《MLAB应用手册》第128-130页,www.civilized.com。
时间信号 1.0 39.814 2.0 32.269 3.0 29.431 4.0 27.481 5.0 26.086 6.0 25.757 7.0 24.932 8.0 23.928 9.0 22.415 10.0 22.548 11.0 21.900 12.0 20.527 13.0 20.695 14.0 20.105 15.0 19.516 16.0 19.640 17.0 19.346 18.0 18.927 19.0 18.857 20.0 17.652 |
我们将关注速率常数K。最佳拟合值为0.2149/s,相当于3.225秒的半衰期。其SE为0.0248 sec-1,相当于0.1625-0.2674/s的95%置信区间。
显然,这三项参数并不完全独立。如果您强制使K 获得较高的值(更快的衰减),则曲线将离点更远。但您可通过将曲线的起始值设置得较高,将结束值设置得较低来补偿一点(增加 跨度和减少稳定段)。参数的SE值相互依赖。
将跨度和稳定段固定为其最佳拟合值,并要求Prism只拟合速率常数K。当然,这不会更改最佳拟合值,因为我们已固定跨度和稳定段 为其最佳拟合值。但此时,K的SE较低,等于0.008605。这很有道理。您固定跨度 和 稳定段,而非当您允许 跨度 和 稳定段值 也进行需更改以补偿K的变化时 ,更改K的值对拟合优度(平方和)具有更大影响。
您固定其他参数时,K的SE较低值告诉您,K中的不确定性取决于其他参数。我们想通过计算依赖度进行量化。
在我们能够比较两个SE值之前,我们必须纠正一个小问题。在计算SE时,程序除以自由度数(df)的平方根。对于每个拟合,df等于数据点数量减去通过回归拟合的参数数量。因此,对于完全拟合,df等于20(数据点数量)减去3(参数数量)或17。当我们保持稳定段和跨度常数的值时,只有一项参数,因此df=19。由于df并不相等,因此两个SE值不太可比。当固定其他参数时,人为降低SE。这很容易固定。两项参数被19/17的平方根约束时,乘以报告的SE,修正后的SE等于0.00910。
此时,我们可计算依赖度。其等于1.0减去两个(修正后的)SE值比率的平方。因此,本示例的依赖度等于1.0-(0.0091/0.0248)2或0.866。本质上,这意味着86.6%的K值方差归因于与其他参数之间的相互作用。
每项参数的依赖度均有所不同(除非只有两项参数)。跨度的依赖度为0.613,稳定段的依赖度为0.813。
依赖度概念的起源
似乎没有关于第一次使用依赖度的论文可引用。依赖度的概念显然由NIH的Dick Shrager提出,然后由Gary Knott改善。MLAB是第一种可以计算依赖度的软件,MLAB手册中很好地解释了这一点。GraphPad Prism只是简单地实施其中解释的方法。(我从2007年Gary Knott的一封电子邮件中了解到了这段历史)。此处是一篇早期论文,讨论了依赖度的基本概念,但其定义不同(从1到无穷大,而非从0到1,且未从数学角度予以充分解释。