Please enable JavaScript to view this site.

在前述章节中,已经明确以排序方式确定主成分:第一个主成分“解释”(或说明)了数据中的大部分方差。第二个PC“解释”数据中第二大的方差量,依此类推。另请回想一下:

主成分分析的主要目标是降维

由每个PC解释的方差由其特征值给出

原始变量越多,可能的PC就越多(假设数据中的观测值对于变量)

综合来看,这意味着如果我们要为一个数据集定义所有可能的PC,我们将得到一个与原始数据集具有相同维度的新数据集,而非一个降维的数据集。因此,我们必须想出一种方法来指定哪些PC我们想保留,哪些我们不想保留。将成分确定为原始变量的线性组合并保留其中“最重要的”的整个过程称为特征提取(不要与特征选择混淆)。

可能的PC总数中选择PC子集有几种不同的常见方法,大多数均与特征值有关(已在前面讨论过

成分选择方法

以下几页描述了选择PC子集的不同技术以及每种技术的优势。本文描述的许多经典技术均以基本标准为基础,在计算模拟广泛可用之前,历史上一直依赖于这些标准。平行分析通过蒙特卡罗模拟法改进了许多这些技术。如果您只阅读其中一种方法,请阅读平行分析。

 

经典的PC选择方法

平行分析

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.