在拟合log(剂量)与反应曲线前,通常要先标准化数据。本页解释了为什么在此情况下不宜使用加权回归。
下图所示为显示常见情况的模拟数据。Y值较大时,重复值之间分散较大。事实上,这些数据均为模拟数据,因此重复值之间的SD与Y值成正比。
使用相对权重,这些数据完美拟合。这将最小化点与曲线之间相对距离的平方和。换言之,它可最小化:
我运行了10,000次模拟,发现在每种情况下拟合均良好,并给出了合理的答案(EC50在数据范围内)。到目前为止并无奇怪之处,假设模型与用于模拟数据的方法完全匹配,则数据拟合良好。
人们通常喜欢将剂量反应数据标准化,因此Y值的范围从0%到100%。如果这些标准化数据与加权非线性回归相拟合,结果如何?
我通过模拟回答了该问题。在1,000个模拟数据集中,有223个完全不拟合。此外,60个模拟数据集给出了无意义的结果,EC50在数据范围之外。余下72%的模拟看起来还可以,但在某些情况下置信区间非常宽。
对于未标准化的数据,最佳拟合曲线在X=-4处的Y值比曲线在X=-8处的Y值大3.05倍。因为权重与曲线Y值的平方成正比,因此曲线顶部附近的点(X=-4处)会得到3.052 ,或9.28倍于曲线底部附近的点(X=-8处)的权重。
标准化数据的情况非常不同。对于第一个模拟数据集,最佳拟合曲线在X=-4处的Y值比曲线在X=-8处的Y值大17.77倍。因为权重与曲线Y值的平方成正比,因此曲线顶部附近的点(X=-4处)会得到17.772 ,或315.8倍于曲线底部附近的点(X=-8处)的权重。由于曲线顶部的点得到的权重比底部的点大得多,因此底部的点基本上可忽略,使得整个曲线拟合不良好。
另一个问题。标准化数据集底部附近的一些Y值为负值。一些值为负值,而另一些值为正值时,加权因子实际上无任何意义。
总结:标准化后,重复值之间的SD不再与Y值成正比,因此相对权重不适用。
加权非线性回归的整体概念是将回归使用的加权方案与实际数据的变化相匹配。如果对数据进行标准化处理,惯用的加权方案均不会起作用。
如果真的想让您的数据显示在一个0%到100%的标准化轴上,您可这样做。首先,使用适当的加权方案将模型与实际数据进行拟合。然后对数据和曲线进行标准化处理。