平行分析(有时称为“Horn平行分析”,以其创造者John L. Horn命名)是一种选择主成分的方法,该方法说明了随机误差或噪声所致的数据方差。执行平行分析的过程汇总如下:
1.对数据集进行PCA,并确定每个PC的特征值
2.使用与原始数据相同的变量(p)和观测值(n)模拟数据集
3.对模拟数据集进行PCA析,确定模拟特征值
4.多次重复模拟/PCA过程(默认为1000),计算每次模拟的特征值
5.计算所有模拟中每个PC特征值的平均值和第95个百分位数
6.将实际特征值与模拟特征值的第95个百分位数进行比较
7.保留(选择)特征值大于模拟特征值第95个百分位数的成分
该思路在于,单纯由于数据中的随机误差(采样可变性),PCA会产生一些特征值大于1的成分。通常,“噪声”数据产生的第一特征值会随着变量数的增加而增加,随着观测值数的增加而减少。通过仅保留特征值大于模拟特征值第95个百分位数的PC,您可以确保这些PC解释的方差可能代表“真实”方差,而非由噪声引起的方差。