Please enable JavaScript to view this site.

上一部分,我们看到第一个主成分(PC)的确定方法是将投影到该成分上的数据的方差最大化。但由于原始数据中为多变量(维度),可能需要添加额外成分来保留第一个PC未充分说明的额外信息(方差)。

数据中可能有多少主成分?

通常,数据集可以使用其所包含的变量(列)和观察值(行)的数量来描述。变量的数量通常用p表示(“预测因子”),观测值的数量通常用n表示。

可以为数据集确定的可能主成分总数等于p或n,以较小者为准。但有两点需要记住:

在很多数据集中,p会大于n(变量多于观察结果)。这种“广泛”的数据对PCA而言并不构成问题,但可能会在其他分析技术中引起问题(例如,多元线性或多元逻辑回归)

罕见的情况是,您希望保留所有可能的主成分(更详细的讨论见下一部分

为简单起见,我们假设我们处理的数据集中变量多于观测值(p>n)。但在确定PC时,过程相同。在识别出第一个PC(将投影这条线上的数据方差最大化的变量的线性组合)后,将下一个PC精确确定为第一个PC,但条件是其必须与先前确定的PC正交。

这在两维平面上很好理解:两个PC必须相互垂直。让我们再回到变量A和B的标准化数据。

我们知道该数据的图表如下,第一个PC可以通过将投影到这条线上的数据的方差最大化来确定(更详细的讨论见上一部分):

由于我们局限在二维空间中,因此仅能够绘制一条垂直于第一个PC的线(绿色):

在前面的部分中,我们已经展示第二个PC如何较第一个PC获取到更少的投影数据方差:

           

 

但该PC会将数据的方差最大化,条件是与第一个PC正交。如前所述,我们可以将该PC表示为标准化变量的线性组合。PC1和PC2的线性组合如下:

PC1=0.707*(变量A)+0.707*(变量B)

PC2=-0.707*(变量A)+0.707*(变量B)

特别注意:这种线性组合的系数可以用矩阵表示,在本表格中称为“特征向量”。该矩阵通常作为PCA结果的一部分呈现

使用该线性组合,我们可以将PC2的“评分”添加到我们的数据表中:

如果原始数据包含更多变量,则可以简单地重复该过程:

找到一条将该线上的投影数据方差最大化的线。这是第一个PC

找到一条将该线上的投影数据方差最大化的线,并与先前识别的每个PC正交。这是下一个PC

想象该过程在二维空间中如何以非常直接的方式起作用。另外,也可以了解三维空间中的三条线如何能够以90°角全部相交(考虑一个3D图表的X、Y、Z轴;这些轴均以直角彼此相交)。然而,随着原始数据维度的增加,可能的PC数量也随之增加,将该过程可视化的能力变得非常复杂(试着在6维空间中将一条与其他5条线相交的线可视化,所有这些线必须以90度角相交……)。

还好,为一个数据集识别所有后续PC的过程与识别前两者并无不同。最后,您会看到PC的排列顺序,第一个PC“解释”数据的最大方差量,第二个PC“解释”第二大方差量,依此类推。下一部分讨论了如何呈现该“解释方差”的数量,以及可以根据该信息做出什么决策来实现PCA的目标,那就是:降维。

 

 

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.