Please enable JavaScript to view this site.

在对话框的“选项”选项卡中,您需要做出两个会严重影响PCA结果和结论的重大决策。除非您理解需要这样做的原因,否则我们建议对标准化数据执行PCA,并使用并行分析来选择成分数量。

方法

最重要的决策是对标准化或居中数据进行PCA。

关于标准化数据的PCA

除非您有具体理由不这样做,否则这是推荐方法。该方法有时称为对相关矩阵执行PCA。如果您的变量用不同单位进行测量,您将几乎总是会选择该方法。

工作原理:执行PCA之前,对变量进行转换,使每个变量的平均值为0,标准偏差为1。这将所有变量放在同一个范围,因此在找到PC时,每个变量的权重均相等。在数学上,

Xstandardized=(Xraw - X̄)/sx

其中,X̄是平均值,sx是变量值的标准偏差。

关于居中数据的PCA

如果您所有的变量均采用相同的单位,则您可能需对居中数据执行PCA,又称对协方差矩阵执行PCA。有时候这是合适的选择,但不常见。

工作原理:在执行PCA之前,对变量进行转换,使每个变量的平均值为0,标准偏差不变。由于未缩放变量,因此标准偏差比其他变量大的变量将主要驱动第一主成分的计算。在数学上,

Xcentered=(Xraw - X̄)

其中,X̄是变量值的平均值

选择主成分数量的方法

选择主成分是确定降维数据集在PCA之后有多少“维度”的过程。在某些情况下,Prism为所选PC提供结果(载荷、特征向量、变量的贡献矩阵、变量和PC的相关矩阵、PC评分和案例的贡献矩阵)。

Prism提供四种选择主成分数量的方法:

平行分析(推荐)

并行分析是一种精美的模拟程序,通过确定PC与模拟噪声所产生的点无法区分的点来选择要包含的PC数量。以下是并行分析的工作过程:

1.Prism模拟大量数据集(默认为1000,但可以指定不同的数量)。每个模拟数据集包含与输入数据相同数量的变量(列)和观察值(行)。

a.对于每个模拟变量,数据是通过从平均值=0的多维正态分布中采样而生成。

b.每个模拟变量的标准偏差等于输入数据表中相应变量的标准偏差

2.对每个模拟数据集执行PCA

3.对于每个PC,计算所有模拟数据集的平均特征值

4.对于每个PC,使用来自所有模拟数据集的特征值计算较高的百分位数(默认为第95个百分位数)

5.对于每个PC,Prism比较输入数据的特征值与根据模拟数据集计算的百分位数上限值

6.如果输入数据的特征值大于模拟数据的百分位数上限值,则选择该成分,否则不选择该成分。

请注意,如果您选择并行分析来确定PC的数量,陡坡图将显示模拟特征值以及您数据的特征值。

根据特征值选择PC

按照典型做法,选择特征值大于1的PC。这称为“Kaiser准则”。使用“1”作为临界值的动机如下:使用标准化数据时,每个变量的标准偏差(和方差)等于1。PC的特征值表示PC所表示的原始数据的方差。因此,如果每个原始变量(或列)引入的变化量为1,则特征值小于1的PC解释的变化少于单列数据。

此外,Prism还包含用于选择不同临界值或只保留最大特征值的前k个PC的选项(可以在选项中指定k)。

根据总解释方差的百分比选择PC

另一用于选择PC数量的常见(经典)程序是保留具有最大特征值的PC,这些特征值累计解释了总方差的指定百分比。总方差目标百分比的常见选择是75%和80%。

选择所有PC

最后一个选项是让Prism报告所有PC。其用处不大,但可能对教学或利基数据探索有用。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.