Please enable JavaScript to view this site.

主成分分析(PCA)是一种非监督式*学习方法,其使用存在于高维数据(具有大量自变量的数据)中的模式来降低数据的复杂性,同时保留大部分信息。

*“非监督式”是机器学习中使用的一个术语,表示一种技术在处理数据时不使用结果或标签。如需理解这一点,可将其与监督式学习进行比较。回归是监督式学习方法的一个示例,原因在于回归利用的是一组已知的结果值(自变量),并建立模型,将预测变量(在机器学习中有时称为“特征”)与这些结果联系起来。相反,非监督式学习方法(如PCA)在进行分析时不使用任何标签(结果)。无需定义任何结果(因变量)或预测变量(自变量)。作为替代,它只是查看数据的属性(对于PCA,使用数据中的方差)。

 

概况

PCA在什么情况下有用?

由于PCA的主要目标是减少描述数据集所需的变量数量,因此当数据中有太多变量,导致难以研究/可视化时,PCA即可派上用场

数据集中的变量可能呈现多重共线性,意味着两个或多个变量之间存在大量相关性。这意味着一个变量的值可以用另一个变量的值进行描述。但对于许多统计模型,变量间的相互独立性很重要(因此产生“独立变量”这一通用术语)。如果变量并非相互独立(即,当变量呈现多重共线性时),则解释各种统计模型或分析的结果会变得困难,甚至无法完成。PCA生成的主成分无共线性。另一种表述是,每个主成分彼此完全正交(它们与其他主成分之间的相关性为零)

将主成分用作多元回归的输入时,PCA可帮助消除过拟合问题(当模型与样本数据拟合得过于紧密时,会出现过度拟合,而在预测较大数据抽样群体的数值时,表现不佳)。这种情况经常发生,原因在于与观察结果的数量相比,数据中的变量过多。在这些情况下,数据中的噪声(随机误差)对模型产生的影响过大。由于PCA可用于减少变量的数量,因此有助于克服过拟合问题

PCA和变量选择是否一样?

否。在PCA中,每个主成分(PC)均为每个原始变量的线性组合。来自所有变量的信息用于定义每个PC。相比之下,变量选择的过程包括根据给定的标准从数据集中消除整个变量。Prism未提供任何形式的自动变量选择

 

分析选择

为什么PCR(主成分回归)的选择呈灰色(不可用)?

执行PCR需要选择一个因变量。该因变量不得包含在PCA中。默认情况下,Prism选择所有(连续)变量均包含在PCA中,因此没有可用的变量可作为PCR的因变量供选择。因此,PCR呈灰色。一旦从变量列表中取消选择某变量作为PCA的一部分,便可以选择PCR

是否应该居中数据?是否应该缩放数据?

如有疑问,请将数据标准化

数据居中要先确定每个变量的平均值,然后从变量的每个值中减去该平均值。在结果数据集中,每个变量的平均值均为零。请注意,仅居中不会改变变量的标准差

数据标准化要先居中变量(见上文)。然后,确定每个变量的标准差,将每个居中值除以其变量的标准差。由此生成数据集,其中每个变量的平均值为零,标准差为1(因此方差为1)

很少对既不居中也不标准化的数据进行PCA(但在少数学科中会这样做)。Prism未提供该选项

PCA的工作原理是分析数据集的方差。方差较大的变量对PCA的结果影响较大。然而,方差差异可能仅仅归因于测量尺度的差异(例如,仅由于测量尺度,以毫米为单位的长度测量比以米为单位的相同长度测量的方差更大)。在某些情况下,保留数据集中的方差关系很重要,但通常我们建议将数据标准化(将每个变量的方差设置为1,请参见上文)

我该如何选择需要保留的PC数量?

我们建议使用并行分析(PA)来选择需要保留的PC数量。其他基于特征值的方法(Kaiser规则等)或解释方差的比例历来很常见。但普遍认为PA是选择成分的最佳经验方法

Prism所要求的、在表格结果中显示的随机种子是什么?

并行分析利用蒙特卡洛模拟,而随机数生成器则需要起始值 - 种子。如果想精确重复一次分析,则每次均需使用相同的种子。如果您想这样做,一旦选择并行分析,Prism将在表格结果页上显示使用的随机种子。您也可以在参数对话框中输入种子值。请注意,随机种子仅与并行分析相关,其他用于选择成分的方法均不使用随机种子。

 

了解PCA结果

PCA在数据中看不到哪些关系?

PCA通过创建原始变量的线性组合来降低数据集的维数。PCA不能识别变量之间的非线性关系

如果从PCA中提取PC,并将其用作另一个PCA的输入,会发生什么?

根据定义,每个PC均与其他PC彼此正交,这意味着任意两个PC之间的相关性正好为零。在此情况下,Prism不会创建PC评分表或相关系数表,原因在于此时的PCA没有意义

主成分的相关矩阵呈什么样子?

每个PC均与其他PC彼此正交,这意味着任意两个PC之间的相关性正好为零。相关矩阵将显示所有PC对的值等于(或非常接近)零(PC与其自身的相关性为1.0)。可通过对Prism中的PC评分表进行相关矩阵分析,检验这一点。由于数值计算中的舍入问题,这些值可能不完全为零

在什么情况下,成分数与变量数不同?

PCA的表格结果表列出了数据集生成的成分数以及同一数据集中包含的原始变量数。这些数值几乎总是相同。请注意,成分总数通常大于选定成分的数量。成分总数小于变量数的唯一情况是:i)如果两个(或更多)变量彼此相同,或者ii)如果一个变量是另一个变量的线性组合。在这两种情况下,成分的数量均少于变量的数量

为什么有些行会被跳过?

PCA只包括包含分析中每个变量(列)值的行。当该行中任何变量的值为空白(缺失)或被排除时,跳过该行。PCA的表格结果显示排除多少行

我应该如何处理PCA结果?

在Prism中运行主成分回归(PCR)作为PCA的一部分,则PCR结果就是您想看到的内容。如果没有运行PCR,可能需要选择并复制,或者导出PC评分表,以便进行进一步分析。很多时候,PCA的目的仅仅是查看Prism创建的一些图表,其数据投射到前几个PC上。这些可视化图标通常可以提供关于观察结果中的趋势(组、集群等)的有用信息。

 

了解PCR结果

为什么PCR结果中的系数比所选的主成分数量多?

主成分回归(PCR)是一个使用指定的结局(因变量)变量和从PCA中选择的PC(作为预测变量)进行多元线性回归的过程。进行线性回归后,系数变换为原始变量的尺度(使用定义每个PC的原始变量的线性组合)

为什么PCR结果中的方差分析表显示回归的自由度如此之少?

回归的df数等于PCA选择作为回归自变量的成分数。因此,系数的数量几乎总是超过回归自由度的数量。本质上,这就是PCR的全部意义!

我应该如何解释PCR结果?

主成分回归(PCR)是一种多元回归,使用PCA创建的主成分(PC)作为自变量,同时使用您选择的另一个变量(不是PCA的一部分)作为因变量。PCR结果的结构与多元线性回归生成的结果相同。查看多元线性回归的分析检查表,以了解更多信息。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.