Please enable JavaScript to view this site.

除非您进入计算数值的必要矩阵代数,否则查找“特征值”或“特征向量”的严格定义无法得出关于这些数值表示什么的合理解释。相反,让我们回到我们的数据可视化表示和为其识别的第一个主成分:

 

给出该PC,作为线性组合:

PC1=0.707*(变量A)+0.707*(变量B)

变量A的系数为0.707,变量B的系数为0.707,这两个系数共同表示PC1的特征向量。简言之,这些数值表示第一个主成分的“方向”,就像斜率代表回归线的方向一样。从上图的坐标点(0,0)开始,可以看出线的“方向”在变量A轴上向右0.707,在变量B轴上向上0.707。在这两点之间所画的直线就是PC1。

特别注意:特征向量(例如,所有向量)既有方向又有尺寸(例如,长度)。向量在二维空间中的方向可以由两个数值定义 - 向量在第一维方向上的成分以及向量在第二维方向上的成分。随着维度的增加,向量将需要更多数值来对其进行全面描述。在PCA中,单个特征向量对每个原始变量均有一个数值。

为什么特征向量以这些奇怪的十进制值结束,而非像1和1这样简单的数值?归根结底是勾股定理。在前述示例中,PC1是从特征向量穿过坐标(0,0)和坐标(0.707,0.707)的直线。如果我们要确定连接这两点的直线的长度(也称为向量的尺寸),我们会发现它等于1!

d = √[(0.707-0)2+(0.707-0)2]=1

*请注意,数值0.707是一个舍入值,因此上述等式只偏离了一点点

事实上,这是一个适用于所有PC特征向量的属性。特征向量的长度始终为1,这可以通过求特征向量值的平方和来进行验证。让我们看看上面相同数据的PC2:

PC2=-0.707*(变量A)+0.707*(变量B)

并且,

d = √[(-0.707)2+(0.707)2]=1

因此,特征向量表示每个主成分的方向。特征值呢?原来这些数值表示主成分所解释的方差量。对于为单个数据集确定的一组PC,具有较大特征值的PC会比具有较小特征值的PC解释更多的方差。以此方式,可以认为特征值是伴随特征向量方向的PC的长度。请注意,在某些情况下,使用载荷描述原始变量与PC之间的关系。本部分讨论了什么是载荷及其与特征向量之间的关系。

继续回到我们的示例,PC1和PC2的特征值分别为1.902和0.098。这证实了我们之前所说的第一个主成分解释最大的方差量,而每个后续成分解释的总方差越来越少。如需直接计算这些数值,请考虑我们使用线性组合和标准化数据为PC1和PC2计算的“评分”。

如果您计算“PC1评分”和“PC2评分”列的标准偏差,然后计算这些数值的平方(方差=[标准偏差]2),您将得到……您猜对了:分别为1.902和0.098。

特征值和原始变量数之和

特征值还有另外有趣的一面,应在继续成分选择之前对其进行讨论。也即如果您使用标准化数据进行分析,所有PC的特征值之和将等于原始变量的总数。为什么?

请记住,标准化数据会导致每个变量的方差等于1。通过扩展,数据集中的总方差等于变量的总数。每个PC“解释”一个等于其特征值的方差量,但不改变数据中的总方差量。由于将数据投影到新PC上不会消除任何方差,因此所有PC的解释方差之和必须等于总方差。因此,特征值之和=解释方差之和=总方差=原始变量数。

该情况在选择PC子集以实现降维时非常有用。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.