pca 只分析连续变量,因此输入数据时会直接忽略分类变量。如果您的数据表中包含分类变量,那么在生成主成分的过程中将不会包含它们。不过,它们可以用于自定义分析的图形输出(pc 分数图)。这有助于在 pc 分数图上直观地识别特异性群体。
数据标准化后,每个变量(每列)的均值为 0.0,标准偏差 (sd) 为 1.0。数据居中后,每个变量的均值都是 0.0,但 sd 不会相同(每个 sd 都会与被分析变量的 sd 相同)。只有当所有变量的单位都相同,并且您知道总体上各变量具有相同的标差(标差之间的任何差异都是随机抽样造成的)时,单独居中才有意义。这种情况很少见,因此如果您选择居中而非标准化,请确保您能证明这一选择是合理的。在选择居中而非标准化时,标差较大的变量对分析的影响会更大,对pc 的特异性贡献更大。然而,这可能仅仅是由于测量尺度(英寸与英里)造成的,因此可能会破坏 pca 的全部意义。
统计学家似乎都同意,平行分析是比 Prism 提供的其他方法更好的主成分选择方法。
如果原始数据中的变量几乎或完全不相关(正交),则每个主成分解释的变异性大致相同。无法用来降维,因此很可能不需要。使用分析生成的方差比例图也可以观察到这一点。
主成分问答》页面为您解答有关 PCA 的其他常见问题