开始使用该方法之前,先快速回顾一下:
•主成分是原始(标准化/中心化)数据的线性组合
•这些线性组合表示数据可以投影到的线(降维)
•存在许多可以投影数据的可能线
•主成分的确定方法是将数据的方差最大化
本部分将主要关注最后一点。请注意此处的图片。该图片代表3维物体的2维投影。仅给定这一信息,可能很难知道该投影所代表的物体是什么。在讨论如何确定主成分后,我们将重新讨论该问题。
如前所述,PCA这一技术能够在保留尽可能多的数据信息的同时降低数据集维度。数据中的“信息”由方差给出。考虑一个变量,其中每个观测值均完全相同。该变量的方差为零,因此,您将无法使用该变量来区分不同的观测值。方差较大的变量包含更多用于PCA的“信息”。只要确保您的数据正确转换(通常是通过标准化),以此方式,在不同尺度上测量的变量不会仅仅因为它们的测量单位而占主导地位。
因此,PCA的首要目标在于尽可能多地保留“信息”(方差)。另一主要目标在于确保新的变量可以用于以尽可能接近的方式“重建”原始数据。回想一下,将数据投影到降维空间会导致一些信息丢失,因此您将无法从降维空间完美重建原始数据。但让我们思考一下其他可以尽可能减小投影产生的误差的方式。也许最重要的是,我们发现通过尽可能降低数据与线之间的垂直距离获得的最佳拟合线可同时实现这两个目标。在PCA中,这条最佳拟合线是第一主成分。
此处给出了前一部分的两张图表,示出了如何同时实现数据与拟合线之间距离最小化以及将该线上投影点的方差最大化。左图,一条未能很好将距离最小化和方差最大化的线。右图,一张示出了这些目标的最佳拟合线的图表。
在上述示例的右图中,线(我们称之为PC1的“第一主成分”)可以表示为两个(标准化)变量的线性组合。对于本示例:
PC1=0.707*(变量A)+0.707*(变量B)
特别注意:这种线性组合的系数可以用矩阵表示,在本表格中称为“特征向量”。该矩阵通常作为PCA的结果给出
凭借该公式,我们现在有了一种方法,可以使用更少的变量来近似得到(“重建”)原始数据(在本案例中,只将两个变量减少到一个)。下列表格示出了将变量A和变量B的值插入该等式时的结果值:
PC1的这些值称为PC1的“评分”,代表投影的数据在此PC上的位置(见上文右图中的数字线,并将其与第三列中的值进行比较)。
上述示例使用了一个只有两个变量的简单数据集。由于PCA的目标在于降维,因此我们只寻找第一个主成分。但在下一部分中,我们将讨论如何确定其他PC。
最后一点。我们现在知道通过将投影中的数据方差最大化来确定PC。为了更好地说明这一点,请看下图:
这是先前呈现的同一个3D物体的另一2D投影,应该很清楚我们现在看到的是什么。如果我们认为鲨鱼身体的长度是X轴,高度是Y轴,宽度是Z轴,则该图片示出了鲨鱼在XY平面上的投影。先前(信息量小)的投影是投影到YZ平面上的同一条鲨鱼。该第二个投影之所以“信息量更大”,是因为数据的方差大部分集中在X方向!我们能够从这张“侧视图”中获得更多信息,因为它保留了原始数据的更多方差,就像PC确定的方差一样。
然而,涉及到数据的投影时,尽管“迎面”视图的信息量小,但该视图对您应该游多快的信息量要大得多…