Please enable JavaScript to view this site.

在前面的章节中,我们已经确定了主成分的定义方式:第一个主成分 "解释"(或解释)了数 据中的大部分方差。第二个主成分 "解释"了数据中次多的方差,以此类推。还记得

PCA 的主要对象是降维

每个 PC 所解释的方差由其特征值给出

有多少个原始变量,就有多少个可能的PC(假设数据中的观测值多于变异性变量)

综上所述,这意味着如果我们要为数据集定义所有可能的PC,那么最终得到的新数据集将与原始数据集具有相同的维度,而不是一个降维的数据集。因此,我们必须想出一种方法来指定哪些 PC 需要保留,哪些不需要保留。将成分定义为原始变量的线性组合,并保留其中"最重要"的成分,这一整体过程被称为特征提取(不要与特征选择混淆)。

从所有可能的PC 中选出 PC 子集有几种不同的常用方法,其中大部分都与特征值有关(前面已经讨论过)。

成分选择方法

下文将介绍选择 PC 子集的不同技术以及每种技术的优势。这里介绍的许多经典技术都是基于最基本的标准,在计算模拟技术广泛普及之前,人们一直依赖这些技术。通过蒙特卡洛分析,并行分析改进了其中许多技术。如果您只想了解其中一种方法,请阅读"并行分析"。

 

选择 PC 的经典方法

并行分析法

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.