GraphPad Prism 10 Statistics Guide - 经典的PC选择方法

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: PRISM 10的统计数据 > 主成分分析 > 理解主成分分析 > PCA过程 > 成分选择

经典的PC选择方法

回想一下，PC的特征值代表由该PC“解释”的原始数据中的方差量，并且最大化方差很重要，因为它提供了最多与原始数据有关的“信息”。因此，选择PC子集的最简单技术之一是只选择具有最大特征值的前k个成分，但关于k的选择，并无明确标准。除具有最多解释数据方差的PC外，无更大的潜在原因。

稍微增加一点复杂性，下一个选择方法包括保留所有特征值大于1的PC。这有时称为“Kaiser规则”、“Kaiser准则”或“Kaiser-Guttman规则”。此处的激励因子可以追溯到下述事实：对于标准化数据，每个原始变量的方差等于1。因此，特征值大于1的PC较原始数据中的单一变量更能解释方差。该方法符合逻辑，但未能说明以下事实：即使存在随机数据（噪声），PCA也会确定特征值大于1的成分。在这些情况下，由成分解释的方差实际上不太有用，因为仅仅存在由随机误差或噪声引起的方差。平行分析使用重复数据模拟来克服这一挑战。

选择PC的另一经典方法包括考察每个成分解释的总方差的百分比。一个PC的特征值代表由该成分解释的方差量，数据中的总方差可采用所有PC的特征值之和的形式给出。因此，可计算每个成分解释的方差百分比，方法是将特征值除以所有特征值的总和。用数学术语来说：

PCn的解释方差百分比=[（PCn的特征值）/（所有特征值之和）]*100%

在本指南其他地方使用的示例中，我们共有两个PC，PC1和PC2的特征值分别为1.902和0.098。使用此公式，PC1和PC2的解释方差百分比分别为95.11%和4.89%（这两个成分累积占100%的总方差）。通过设定一个预定的阈值（通常为总解释方差的75%或80%），可以选择累积解释至少这一方差值的前k个PC作为成分的子集。然而，类似于其他经典方法，这种选择方法不能说明数据中可能由随机误差或噪声引起的方差。

Please enable JavaScript to view this site.