主成分分析(PCA)是一种无监督*学习方法,它利用高维数据(具有大量独立变量的数据)中存在的模式来降低数据的复杂性,同时保留大部分信息。
*无监督是机器学习中的一个术语,表示一种技术在处理数据时不使用结果或标签。要理解这一点,请将其与监督学习进行比较。回归是有监督学习方法的本示例,因为它使用一组已知的结果值(自变量),并建立一个模型,将预测因子变量(有时在机器学习中称为 "特征")与这些结果连接起来。相比之下,无监督学习方法(如 PCA)在进行分析时不使用任何标签(结果)。你不需要定义任何结果(依赖度)或预测因子(自变量)变量。相反,它只需查看数据的属性(在 PCA 中,它使用数据的方差)。
•由于 PCA 的主要目标是减少描述数据集所需的变量数量,因此当数据中的变量过多而难以探索/可视化时,PCA 最为有用
•数据集中的变量可能表现出多重共线性,即两个或多个变量之间存在大量相关性。这意味着一个变量的值可以用另一个变量的值来描述。然而,对于许多统计模型来说,变量之间相互独立是非常重要的(因此通常称为 "独立变量")。如果不是这种情况(即变量表现出多重共线性),对各种统计模型或分析结果的解读就会变得困难甚至不可能。PCA 生成的主成分不存在共线性。另一种说法是,每个主成分之间完全正交(它们与其他主成分的相关性为零)。
•当主成分被用作多元回归的输入时,PCA 可以帮助消除过拟合问题(这是指模型与样本数据拟合得过于紧密,而在预测来自数据样本的更大群体的值时性能不佳)。出现这种情况的原因通常是,与观测数据的数量相比,数据中的变异性太多。在这种情况下,数据中的噪声(随机误差)会对模型产生过大的影响。由于 PCA 可用于减少变量数量,因此有助于克服过度拟合的问题
•不一样。在 PCA 中,每个主成分(PC)都是每个原始变量的线性组合。来自所有变异性变量的信息都被用来定义每个 PC。相比之下,变异性选择过程则是根据给定的标准从数据集中剔除所有变量。Prism 不提供任何形式的自动变异性选择。
•执行 PCR 需要选择一个因变量。该因变量不得同时包含在 PCA 中。默认情况下,Prism 会选择将所有(连续)变量都包含在 PCA 中,因此没有可用变量可选作 PCR 的依赖度变量。因此,PCR 显示为灰色。一旦从 PCA 变量列表中取消选择某个变异性变量,PCR 的选项就会出现。
•如有疑问,请将数据标准化
•将数据居中首先要确定每个变量的平均值,然后从变量中的每个值中减去该平均值。在得到的数据集中,每个变量的均值都为零。请注意,仅仅居中不会改变变量的标准偏差
•数据标准化首先要将变量居中(见上文)。然后,确定每个变量的标准偏差,并将每个居中值除以其变量的标准偏差。这样得到的数据集每个变量的均值为 0,标准偏差为 1(因此方差为 1)。
•在既未居中又未标准化的数据上运行 PCA 是很少见的(尽管在少数学科中会这样做)。Prism 不提供此选项
•PCA 的工作原理是分析数据集的方差。变异性较大的变量对 PCA 的结果影响更大。然而,方差的差异可能仅仅是由于测量尺度的不同造成的(例如,以毫米为单位的长度测量值比以米为单位的相同长度测量值的方差更大,这仅仅是由于测量尺度的不同造成的)。在某些情况下,保留数据集的变异性关系可能很重要,但一般情况下,建议对数据进行标准化处理(将每个变量的变异性设为 1,见上文)。
•我们建议使用平行分析法(PA)来选择要保留的 PC 数。其他基于特征值(凯撒规则等)或解释方差比例的方法在历史上也很常见。不过,人们普遍认为 PA 是选择成分的最佳经验方法。
•并行分析利用蒙特卡洛模拟,随机数生成器需要一个起始值--种子。如果要准确重复分析,每次都需要使用相同的种子。如果您想这样做,Prism 会在选择了并行分析的情况下,在表格结果表中显示所使用的随机种子。您也可以在参数对话框中输入种子值。请注意,随机种子只适用于并行分析,其他用于选择成分的方法都不使用随机种子。
•PCA 通过创建原始变量的线性组合来降低数据集的维度。PCA 无法识别变量之间的非线性关系
•根据定义,每个 PC 与其他 PC 都是正交的,这意味着任意两个 PC 之间的相关性正好为零。在这种情况下,Prism 不会创建 PC 分数或载荷表,因为 PCA 没有意义。
•每个 PC 与其他 PC 都是正交的,这意味着任意两个 PC 之间的相关性正好为零。相关矩阵将显示所有成对 PC 的值等于(或非常接近)零(PC 与自身的相关性为 1.0)。您可以通过在 Prism 中对 PC 分数表进行相关矩阵分析来验证这一点。由于数值计算中的四舍五入问题,数值可能不完全为零。
•PCA 的结果表既列出了数据集生成的成分数,也列出了同一数据集中包含的原始变量数。这些值几乎总是相同的。请注意,成分总数通常大于所选成分数。成分总数小于变量数的唯一情况是:i) 两个(或两个以上)变量彼此相同,或 ii) 一个变量是另一个变量的线性组合。在这两种情况下,成分数都会少于变量数。
•PCA 只包含包含分析中每个变异性变量(列)值的行。如果该行中任何变量的值为空白(变异性缺失)或排除,则该行会被跳过。PCA 的表格结果会显示有多少行被排除在外。
•如果您在 Prism 中作为 PCA 的一部分运行了主成分回归 (PCR),那么 PCA 结果就是您要查看的内容。如果没有运行 PCR,则可能需要选择并复制或导出 PC 分数表,以便进一步分析。很多时候,PCA 的目的仅仅是查看 Prism 绘制的投影到前几个 PC 上的数据图表。这些可视化图表通常可以提供有关观察结果趋势(组、群等)的有用信息。
•主成分回归 (PCR) 是使用指定的结果(依赖度)变量和 PCA 选定的 PC 作为预测因子变量进行多元线性回归的过程。进行线性回归后,将系数转换为原始变量的标度(使用定义每个 PC 的原始变量的线性组合)
•回归的 df 数等于 PCA 选定的作为回归自变量的成分数。所以系数的数量几乎总是超过回归自由度的数量。从本质上讲,这就是 PCR 的全部意义所在!
•主成分回归(PCR)是一种多元回归,它使用 PCA 创建的主成分(PC)作为自变量,同时使用您选择的另一个变量(不属于 PCA 的一部分)作为因变量。PCR 的结果结构与多元线性回归生成的结果相同。更多信息请查看多元线性回归的分析清单。