Please enable JavaScript to view this site.

主成分分析(PCA)是一种强大的检验力模型,可以降低数据的维度。当变量(列)较多时,它尤其有用。它甚至可以用于列数多于行数的表格!

PCA 的主要用途如下

1.将数据可视化,以便进行探索性分析。通过绘制任意两个主成分的数据行的得分图或数据列的载荷图,您可以发现数据中有趣的特征。

2.减少预测因子的数量,以便将来进行主成分回归等分析。

PCA 如何工作

PCA 使用一些复杂的数学(计算线性代数)来确定数据矩阵(行和列)中固有的基本线性结构。PCA 背后的主要数学方法是奇异值分解,它是特征值分解的一般化。

要理解 PCA 及其结果,并不完全需要了解这些方法的工作原理。不过,在解读 PCA 结果时,了解相关概念的基本原理会非常有帮助。

本页将介绍 PCA 执行方法中的一些技术细节,以及 PCA 所能说明的数据信息。

模型限制

PCA 的工作原理是提取数据中的线性关系。在实践中,使用这些线性关系通常就足够了,但不可否认的是,PCA 之所以受欢迎,是因为线性假设大大简化了计算。

PCA 的一个主要局限是它对非线性关系视而不见。例如,考虑三列数据 X1、X2 和 X3。如果 X1 = X2*X3(非线性关系),那么 PCA 无法准确提取这种关系。相反,PCA 却能很好地提取出呈现线性关系的变量的更复杂关系。

主成分回归

一个常见的混淆点是,与大多数统计模型不同,PCA 本身并不需要定义响应变量。相反,所有变量都是作为预测因子输入的。不过,如前所述,PCA 通常被用作进一步分析的先导。PCA 之后最常见的分析之一就是主成分回归 (PCR)。要执行 PCR,必须指定一个结果变量,该结果变量不能是 PCA 中输入的变量之一。

主成分分析与因子分析的区别

另一个常见的混淆点是 PCA 和因子分析 (FA) 之间的关系。因子分析在社会科学领域很流行,它试图在被称为因子的变量之间找到可解读的线性关系。换句话说,因子分析依赖于这样一个概念,即存在一个无法直接测量的 "潜在 "或 "潜在 "因子,但它会导致数据集中变量的测量值模式。PCA 中的主成分并没有相同的解读。相反,PCA 只是一个有用的过程,可以将观察结果变量的数量减少到一组较小的独立变量。PCA 的优势在于分数、载荷和双图,以及使用维度减少后的分数进行进一步分析的能力。GraphPad Prism 目前还不能进行 FA 分析。

 

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.