Please enable JavaScript to view this site.

主成分分析(PCA)是一种可以降低您数据维度的强大探索性模型。当您有很多变量(列)时,该模型特别有用。该模型甚至可以用于列多于行的表格!

PCA的主要目的包括:

1.将您的数据可视化,以进行探索性分析。您可以通过用评分图沿着任意两个主成分绘制数据行,或者用载荷图绘制数据列来发现数据的有趣特征。

2.减少未来分析(例如,主成分回归)预测因子量。

PCA如何工作

PCA使用少许复杂的数学原理(计算线性代数)来确定数据矩阵(行和列)中固有的底层线性结构。PCA背后的主要数学是奇异值分解,这是特征值分解的广义。

对于PCA及其结果的理解,不严格要求理解这些方法的工作方式。但在解释PCA结果时,理解所涉概念的基本原则会非常有帮助。

本页提供了一些关于如何执行PCA的技术详情及其可以告知您的关于数据的内容。

模型的局限性

PCA的工作方式是提取数据中的线性关系。在实践中,使用这些线性关系通常就足够,但不可否认,它受到欢迎原因在一定程度上归因于线性假设大幅简化了计算。

PCA的主要局限性之一是其对非线性关系视而不见。例如,考虑三列数据X1、X2和X3。如果X1=X2*X3(非线性关系),则PCA将无法准确提取该关系。相比之下,PCA非常擅长提取呈现线性关系的更复杂的变量关系。

主成分回归

一个常见的混淆点在于:不同于大多数统计模型,PCA本身无需您定义一个响应变量。相反,所有变量均作为预测因子输入。然而,如上所述,PCA经常用作进一步分析的前兆。PCA之后最常见的分析之一是主成分回归(PCR)。为执行PCR,您必须指定一个结果变量,该变量不能是输入PCA的变量之一。

主成分分析与因子分析的区别

另一个常见的混淆点是PCA与因子分析(FA)之间的关系。因子分析在社会科学中非常受欢迎,这种分析试图在变量(称为因子)之间找到可解释的线性关系。换言之,因子分析依赖于下述概念:存在一个无法直接进行测量但会形成数据集变量中测量值模的“隐含”或“潜在”因子。PCA中的主成分并无相同的解释。相反,PCA仅仅是一个将观察变量的数量减少到一组更小独立成分的有用过程。PCA的优点是评分、载荷和双标图,以及通过使用降维评分进行进一步分析的能力。GraphPad Prism不执行FA(迄今为止)。

 

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.