经典的PC选择方法
回想一下,PC的特征值代表由该PC“解释”的原始数据中的方差量,并且最大化方差很重要,因为它提供了最多与原始数据有关的“信息”。因此,选择PC子集的最简单技术之一是只选择具有最大特征值的前k个成分,但关于k的选择,并无明确标准。除具有最多解释数据方差的PC外,无更大的潜在原因。
稍微增加一点复杂性,下一个选择方法包括保留所有特征值大于1的PC。这有时称为“Kaiser规则”、“Kaiser准则”或“Kaiser-Guttman规则”。此处的激励因子可以追溯到下述事实:对于标准化数据,每个原始变量的方差等于1。因此,特征值大于1的PC较原始数据中的单一变量更能解释方差。该方法符合逻辑,但未能说明以下事实:即使存在随机数据(噪声),PCA也会确定特征值大于1的成分。在这些情况下,由成分解释的方差实际上不太有用,因为仅仅存在由随机误差或噪声引起的方差。平行分析使用重复数据模拟来克服这一挑战。
选择PC的另一经典方法包括考察每个成分解释的总方差的百分比。一个PC的特征值代表由该成分解释的方差量,数据中的总方差可采用所有PC的特征值之和的形式给出。因此,可计算每个成分解释的方差百分比,方法是将特征值除以所有特征值的总和。用数学术语来说:
PCn的解释方差百分比=[(PCn的特征值)/(所有特征值之和)]*100%
在本指南其他地方使用的示例中,我们共有两个PC,PC1和PC2的特征值分别为1.902和0.098。使用此公式,PC1和PC2的解释方差百分比分别为95.11%和4.89%(这两个成分累积占100%的总方差)。通过设定一个预定的阈值(通常为总解释方差的75%或80%),可以选择累积解释至少这一方差值的前k个PC作为成分的子集。然而,类似于其他经典方法,这种选择方法不能说明数据中可能由随机误差或噪声引起的方差。