线性回归的目标是调整斜率和截距的值,找到能从 X 预测 Y 的最佳直线。更准确地说,回归的目标是使各点与直线的垂直距离的平方和最小。为什么要最小化距离的平方和呢?为什么不干脆最小化实际距离之和呢?
如果随机散点服从高斯分布,那么出现两个中等大小偏差(比如各 5 个单位)的可能性要远远大于出现一个小偏差(1 个单位)和一个大偏差(9 个单位)的可能性。最小化距离绝对值之和的程序,不会优先选择距离两点 5 个单位的直线和距离一点 1 个单位、另一点 9 个单位的直线。在每种情况下,距离之和(更准确地说,是距离的绝对值之和)都是 10 个单位。最小化距离平方和的程序更倾向于距离两点 5 个单位(平方和 = 50),而不是距离一点 1 个单位,距离另一点 9 个单位(平方和 = 82)。如果散点是高斯分布(或接近高斯分布),那么通过最小化平方和确定的直线最有可能是正确的。
这种计算方法在每本统计书中都有展示,完全是标准的计算方法。
与许多统计术语一样,"回归 "一词在统计学中的用法与在其他场合的用法截然不同。这种方法最早用于研究父子身高之间的关系。当然,两者之间是有关系的,但斜率小于 1.0。高个子父亲的儿子往往比自己矮;矮个子父亲的儿子往往比自己高。儿子的身高向平均值回归。现在,"回归 "一词被用于多种曲线拟合。
线性回归的细节在许多教科书中都有解释,在此不再详述。Prism 所做的一切都是标准的。这里有一个很好的基础知识资料,包括置信带和预测带。