线性回归不同于相关性。
线性回归找到了从 X 预测 Y 的最佳线。
相关性量化两个变量的相关程度。相关性并不通过数据点来拟合一条线。您只是在计算一个相关系数(r),它告诉您当一个变量发生变化时,另一个变量的变异性有多大。当 r 为 0.0 时,表示没有关系。当 r 为正值时,一个变异性会随着另一个变异性的上升而上升。当 r 为负值时,一个变异性上升,另一个变异性下降。
线性回归通常用于 X 为可操作变量(时间、浓度等)的情况。
相关性几乎总是在你测量两个变量时使用。当一个变量是你在实验中操作的变量时,它很少适用。
在回归中,决定哪个变量为 "X",哪个变量为 "Y "很重要,因为如果将这两个变量对调,会得到不同的拟合优度线。从 X 预测 Y 的最佳拟合线与从 Y 预测 X 的拟合线是不同的(但这两条拟合线的R2 值是相同的)。
有了相关性,就不用考虑因果关系了。两个变异性变量中哪个叫 "X",哪个叫 "Y "并不重要。将两个变量对调,就能得到相同的相关系数。
在线性回归中,X 值可以是测量值,也可以是由实验者控制的变异性变量。不假设 X 值是从高斯分布中采样的。假设各点与拟合优度线的距离服从高斯分布,散点的 SD 与 X 或 Y 值无关。
相关系数本身只是描述两个变量如何共同变异性的一种方法,因此可以对任何两个变量进行计算和解读。不过,进一步的推论还需要一个额外的假设--X 和 Y 都是经过测量的(是区间变量或比率变量),并且都是从高斯分布中采样的。 这就是所谓的二元高斯分布。如果这些假设成立,那么你就可以解读 r 的置信区间和检验两个变量之间确实不存在相关性的 P 值(你观察到的任何相关性都是随机抽样的结果)这一零假设。
线性回归用r2 量化拟合优度,有时大写显示为R2。 如果将相同的数据放入相关性中(这很少合适;见上文),相关性中 r 的平方将等于回归中的r2。
相关性计算的是皮尔森相关系数 r 的值,其范围在-1 到+1 之间。