线性回归的目的是调整斜率和截距的值,以便从X中找到最佳预测Y的直线。更准确地说,回归的目标是最小化点到直线的垂直距离的平方和。为何要最小化距离的平方和?为何不简单地最小化实际距离的总和?
如果随机散布服从高斯分布,则其具有两个中等大小的偏差(例如,每个偏差5个单位)比具有一个小偏差(1个单位)和一个大偏差(9个单位)的可能性更高。最小化距离绝对值总和的程序将不会优于一条距离两点5个单位的直线以及一条距离其中一点1个单位且距离另一点9个单位的直线。在所有情况下,距离的总和(更准确地说,距离绝对值总和)为10个单位。最小化距离平方和的程序更倾向于距离两点5个单位(平方和=50),而非距离其中一点1个单位,且距离另一个点9个单位(平方和=82)。如果散布服从高斯分布(或者接近高斯分布),则通过最小化平方和确定的直线最有可能是正确的。
将计算显示在每本统计学书中,且这些计算完全标准。
类似于其他许多统计术语,“回归”一词在统计学中的使用与在其他上下文中的使用似乎有所不同。该方法首先被用于检验父子身高之间的关系。当然,这两者存在相关性,但斜率小于1.0。高个子父亲的儿子往往比父亲矮;矮个子父亲的儿子往往比父亲高。儿子的身高回归到平均值。“回归”一词现在用于多种曲线拟合。
线性回归的详情在许多教科书中均有解释,因此在此将不再详述。Prism所做的一切均为标准操作。此处是一个良好的基础资料来源(包括置信带和预测带)。