Please enable JavaScript to view this site.

什么是投影?

对于具有大量变量的数据集,需要降维,以便更容易理解数据中的关系,或者从数据中生成可用于未来观察结果的可靠预测的模型。实现降维的一种方法是通过一种称为“投影”的过程。幸运的是,我们都熟悉该概念,即使我们不熟悉它的名称。

上一部分中所述,我们考虑使用“3D”图表沿三个独立的维度(三个变量用作垂直轴)显示数据。然而,这些“3D”图表的问题是,它们实际上不包括三根垂直轴,而只代表三根轴。这些图表显示在一张纸上或电脑显示器上,每张图表均是平面的,只有两个维度(长度和宽度,没有深度)。这些“3D”图表似乎只有第三个空间维度,而实际上它们只有两个。这一点似乎非常明显,但它是一个与降维相关的重要概念。

这些“3D”图表实际上是由三个维度(三个变量)所述的信息投影到二维空间。幸运的是,我们(人类)的大脑非常擅长将三维数据的投影理解为二维数据。每当我们看到一张照片或看一部电影,我们均会理解三维信息的二维投影,我们可以很好地理解这些图片中隐含的关于“深度”的信息,尽管没有任何关于深度的信息。

轴上的投影

为使本部分中的其余概念更容易理解,让我们考虑仅由两个变量(之前的变量A和B)组成的简单数据集。还是以数据为例:

让我们看一个使用(二维)图表的投影示例:

 

这是上述数据集中我们的两个变量的图表。将数据投影到X轴上(变量A)可能看起来如下:

 

如果我们选择将数据点投影到Y轴上(变量B),我们将得到如下所示的图表:

 

 

您可能已经意识到,通过执行这些投影,我们减少了描述数据所需的维度数量。在第一个示例中,我们只需要变量A的值,并且可以将该投影数据表示为一个简单的数线。在第二个示例中,我们得到了变量B的值,我们可以再次在一个数线上显示这些值(将其旋转以便于阅读)。

投影到其他线上

将数据投影到一个或另一根轴上可显示描述数据所需的维度有多少。然而,它也表明,这两种方法均会损失大量信息。在投影到变量A(X轴)上时,关于变量B的信息会损失,反之亦然。通常,我们感兴趣的是最小化投影过程中损失的信息量。因此,还有其他投影方法可以保留关于这两个变量的信息,其中一种方法可能非常熟悉。

线性回归是将点投影到线上的一种极其常见的方法。通常,以最小化点线之间垂直距离的平方和的方式执行回归。考虑以下两张图表:

           

 

左边图表上,这些点投影到一条点与线之间的垂直距离很大的拟合不良的线上。右边图表上,已最小化垂直距离,这是数据的最佳拟合线。

在标准回归中,数据以Y方向(垂直)投影到线上,并且这些距离已最小化。然而,其他技术也可以用于数据的投影。例如,X方向(水平)的投影。最小化这些距离产生了稍微不同的线:

 

将数据投影到线上的另一种方法是同时最小化两个方向上的距离。我们将使用与以前相同的数据,但在继续之前,我们将对其进行一些转换。这些转换不仅可以让您直观地了解最后一种投影方法与其他两种投影方法相比如何,而且由于定义主成分的方式,它们在执行PCA时也很重要。详细讨论请参见单独的部分

这还是我们的原始数据:

我们将对该数据进行标准化处理。为此,我们首先会计算每个变量的均值和标准差。然后,对于一个变量中的每个值,减去该变量的均值,然后除以其标准差(有时又称“值的Z评分”)。对于该数据,标准化将产生以下(四舍五入)值:

关于已经标准化的变量,需注意的一个重要事实是,它们的均值始终为0,标准差为1。让我们看一下图表上的这些标准化数据。

 

总体而言,标准化数据的图表看起来非常类似于原始数据的图表,但进行了平移,使得点云的“中心”位于原点(0,0)。请注意,数据在X和Y方向的比例也发生了变化,但由于两组的标准差相似(变量A标准差为3.90,变量B标准差为4.45),散点图的整体形状并无太大变化。

使用标准化数据,现在让我们看看如何将这些点投影到一条线上,同时最小化点和线之间的水平和垂直距离。由于我们对数据进行了标准化处理(即X和Y方向的方差相同),因此与最小化点和线之间的垂直距离相同:

 

如果我们将这条线与通过最小化点与线之间的垂直(红色)或水平(蓝色)距离而拟合的线进行比较,我们会发现最小化垂直(绿色)距离直接位于中间:

 

性能指标

那么我们为什么要对数据投影可用于投影的不同的线进行这些操作呢?事实证明,在使用标准化数据时,通过最小化点和线之间的垂直距离来将线拟合到标准化数据也最大化了拟合线上的投影数据的方差。这意味着同时使用该过程:

最小化因数据投影到线上而造成的信息损失

最大化投影到线上的数据的方差

再进行一个图解比较,使其更明确。这也是通过最小化标准化数据点和线之间的垂直距离拟合线的投影:

 

现在比较垂直投影到不同线上的相同数据的方差(分布):

 

在第二张图表中,很明显,点和线之间的距离比前一张图表大得多,并且投影数据更接近于聚集在线上。令人惊讶的是,结果表明,最小化数据点和线之间的垂直距离相当于最大化线上投影数据的方差。更重要的是,这正是PCA试图做的:通过将数据投影到较少维度上来说明数据中最大的方差。当然是在您有很多变量的情况下进行PCA。在您只有两个变量时,真的无需降维。

© 1995-2019 GraphPad Software, LLC. All rights reserved.