主成分回归(PCR)是PCA与多元线性回归(MLR)的结合。通常,通过PCA进行降维的目标是PCR,而Prism提供了执行PCR作为PCA选项一部分的能力。选择执行PCR作为PCA一部分时,除PCA的其他结果外,PCA结果还将包括一个额外的回归结果选项卡。
简言之,运行PCA,选择一些主成分,并利用所选择的这些PC评分作为自变量(预测因子)运行MLR。 您所选择的另一个变量(不包括在PCA中)是因变量(结果)。
Prism在幕后又执行另一步。它将回归系数转换回原始输入变量的范围,而非在PC评分的范围报告回归系数。
请注意,在下述PCR结果中,回归模型使用了两个自由度,因为仅选择两个PC作为自变量。 但请注意,示出了所有九个自变量加上截距的系数。这似乎令人难以置信,但这就是PCR的全部意义。从本质上来说,MLR适合于投影到更小维度的数据(这听起来可能有些奇怪,但此处会进行更详细的解释)。
除使用PC评分拟合MLR外,系数、标准误差和置信区间的解释与MLR相同。例如,其模型是
估计响应=β0+β1*X1+β2*X2+β3*X3+...
有关多元线性回归,请参考这些附加页面,了解如何解释方差分析表、P值和R²。
注意要点。让我们从调用数据点总数(数据表中的完整行)“N”开始。另外,让我们将所选PC(预测变量)的数量称为“k”。
方差分析表中的总自由度定义为N-1。为何减去1?因为截距适用。回归的自由度定义为等于k,残差的自由度定义为N-k-1。快速检查表明,回归的自由度加上自由度等于总自由度:
dfreg + dfres = k + (N-k-1) = N - 1 = dftotal
在拟合优度部分,自由度定义为分析的总行数(N)减去参数的数量。参数的数量不同于预测因子的数量,因为该模型包括截距项。这意味着参数的总数等于预测因子加1(或k+1)。因此,为计算拟合优度部分的自由度,我们得出:
dfgof = N - (k+1) = N - k - 1
上述示例有569行数据,结果表示出了10项参数的参数估计值(9个预测因子加上截距)。但回归只有2个自由度,残差只有566个自由度。这是因为回归实际上只“看到”两个主成分作为预测因子(或自变量)。因此,将自由度计算为569-3=566(3,因为其适用于两个PC加上截距)。这就是PCR的“魔力”。PCA过程将自变量的数量减少到更少的主成分(而不会丢失太多信息),因此“给予”分析更多的自由度。
类似于PCA表结果的数据汇总,PCR结果也包括一个数据汇总部分。在该部分中,给出了关于原始变量的数量、PC选择方法、所选成分的数量(用作PCR的预测因子)和数据表中的数据行的信息。虽然PCA和PCR数据汇总的这些数值相同,但需注意的是,对于PCR,包含跳过行数(缺失数据)和分析行数(#案例)的最后两行可能与PCA不同。
回想一下,为执行PCR,必须从输入数据表中选择一个变量作为回归的因(结果)变量,且该变量不能作为PCA的变量。然后,对所选变量执行PCA。如果这些变量中存在任何缺失(或排除)值,则在PCA计算过程中将跳过这些行。然后,使用计算的PC和指示的响应(结果、因)变量执行PCR。对于PCR,Prism会检查定义PC的变量或响应变量中是否存在任何缺失(或排除)值,同时将跳过具有任何这些变量的缺失值的行。
为确保明确确定这一点,此处有另一种方式来对其进行考虑。使用指定输入变量(不包括因变量)中的所有可能数据,定义作为PCA的一部分生成的成分。然后,这些将成分用于具有指定因变量的回归。如果某一行缺失一个因变量的数值,该行将排除在回归之外,但该行的其他数值仍然在确定主成分的数值中发挥作用。
总言之:
•在关于相同数据的PCR中,还将排除由于缺失(或排除)数值而在PCA中跳过的行
•在PCR中,仅排除具有指定响应变量中缺失(或排除)数值的行。如果某一行仅缺失一个响应变量的数值但具有所有其他输入变量的数值,则该行将用于PCA,但对于PCR,将予以跳过
•因此,对于相同的数据,PCR中“跳过的行数(缺失数据)”可能比PCA多