Please enable JavaScript to view this site.

选择 PC 的经典方法

回想一下,PC 的特征值代表了该 PC 所"解释"的原始数据方差的大小,而方差的最大化之所以 重要,是因为它提供了关于原始数据的最多"信息"。因此,选择 PC 子集的最简单技术之一就是选择特征值最大的前k 个成分,而选择k时并没有明确的标准。除了这些是对数据解释方差最大的 PC 之外,没有其他更深层次的原因。

这种方法有时被称为"凯撒规则"、"凯撒准则"或"凯撒-古特曼规则"。因此,特征值大于1 的 PC 比原始数据中的单一变量能解释更多的变异性。这种方法合乎逻辑,但没有考虑到即使是随机数据(噪音),PCA 也会定义出特征值大于 1 的成分。在这种情况下,成分所解释的方差实际上并无用处,因为这只是随机误差或噪音造成的方差。平行分析使用重复数据模拟来克服这一难题。

另一种选择 PC 的经典方法是查看每个成分所解释的总方差的百分比。PC 的特征值代表了该成分所解释的方差量,而数据的总方差可以由所有 PC 的特征值之和给出。因此,将每个成分的特征值除以所有特征值之和,就可以计算出每个成分所解释方差的百分比。用数学术语来说就是

PCn的解释方差百分比 = [ (PCn 的特征值)/(所有特征值之和)]*100

在本指南其他部分使用的本示例中,我们共有两个 PC,PC1 和 PC2 的特征值分别为 1.902 和 0.098。使用该公式计算,PC1 和 PC2 的解释方差百分比分别为 95.11% 和 4.89%(这两个成分的累计解释方差占总方差的 100%)。通过设置一个预先确定的阈值(通常为总解释方差的 75% 或 80%),可以选择累计解释方差至少达到这一比例的前 k 个 PC 作为成分子集。不过,与其他经典方法一样,这种选择方法无法考虑可能由随机误差或噪声引起的数据方差。

© 1995-2019 GraphPad Software, LLC. All rights reserved.