Please enable JavaScript to view this site.

主成分分析的主要目标是降维。在此情况下,维度仅仅意味着描述数据所需的变量数量。因此,简言之,降维只是减少描述数据所需变量数量的一种方式。

为什么要降低数据的维度?

在处理大型数据集时,目视检查数据以发现数据中的趋势或模式通常很有用。这些模式可用于对观察结果进行聚类或分组,或者理解数据中不同变量之间的关系。考虑以下数据集:

我们可以很容易地发现-通常来说-随着变量A的增加,变量B也会增加(一个正系数)。使用这些数据,我们可以快速编制一个XY图,直观地显示这种关系。当然,发现这种关系很容易,因为只有两个变量!

但随着数据中变量数量的增加,识别数据的底层模式变得更加困难。考虑以下扩展数据:

如果不绘制数据,这些关系就不再那么容易发现。使用前三个变量,我们可以创建该图表,其中颜色由变量C的值决定:

然而,即使有了该图,变量A与变量C(以及变量B与变量C)之间的任何关系均不明显。随着变量A(或变量B)的值增加,变量C的值的模式似乎不可预测。

可以向该图中添加一个附加变量,使用其值来确定符号尺寸。在下图中,符号尺寸与变量D的值成比例。然而,随着数据行数的增加,这种图表变得更加难以阅读,关系当然不会显而易见。

如果数据集包含大量变量,那么几乎不可能在一个图中表示所有变量。图表矩阵可用于显示每对变量之间的关系(见下文),但这些矩阵很难洞察同时涉及多个变量的更大的潜在关系。

同时可视化多对变量的另一种方法可能是通过使用具有附加垂直轴的图表(例如,具有代表第三变量或第三维的第三垂直轴的“3D”图表)。然而,这些图表有其固有的局限性。明显限制是我们(人类)只能感知三个空间维度(高度、宽度、深度)。目前尚无良好方法以直观方式同时包含超过三根轴。因此,该解决方案不适用于具有大量独立变量的数据集。

在处理包含大量变量的数据集时,还会出现其他(非可视化)问题。最大的问题之一就是“过拟合”。在此,我们不打算详细介绍这一点,但简短的版本依然具有很多变量(即很多维度),我们用于描述观察数据而生成的任何模型均将与数据良好拟合,并且对于预测未来观察结果的值没有用。

由于这些原因,已经开发出在不完全删除变量的情况下减少数据集中维度数量的技术。PCA是这些技术之一,并且非常依赖于特征提取的概念(通过线性组合将数据投影到较少维度上),下一部分将对此进行详细讨论

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.