PCA 的数据规模极为重要。执行 PCA 的第一步是确保所分析的变异性都处于相似的测量尺度上。这几乎总是通过数据标准化来实现。标准化的数学原理很简单
xstd=(xi-x̄)/sx
其中,xstd是标准化值,xi是原始值,x̄ 是变量的平均值,sx是变量的标准偏差。实际上,这是将数据转换为每个变量的平均值为 0,标准偏差为 1。随后,每个变量的方差为 1,因为方差就是标准偏差的平方:
varx=sx2
这一步实际上对确保正确解读 PCA 的结果非常重要,因为 PCA 对原始变量的变异性非常敏感。特异性地讲,PCA 在确定如何以最佳方式降低数据集维度时,决定哪些变量 "最重要 "的方法是确定哪些变量呈现的变异性最大(下一节将对此进行详细介绍)。如果原始变量之间的变异性相差很大,那么分析最终会偏向变异性较大的变量,而忽略变异性较小的变量。
这乍看起来似乎不是什么坏事,但变量之间的变异性差异往往不是数据本身造成的,而是测量数据的尺度造成的。本示例以酿造啤酒时可能涉及的一些变量为例。这些变量可能包括所用谷物的质量(单位:克)、酿造啤酒的温度(单位:摄氏度)、用水量(单位:升)或发酵的时间长度(单位:小时、天,甚至周)。这些变量中的每一个都是在非常不同的尺度上测量的,而您在酿造多个批次的啤酒时所预期的变异性可能会因变量的不同而大相径庭。举例来说,您可能会预料到一次与另一次的温度差异为 2-5 °C,或几克谷物的差异,但体积差异可能只有 0.05 升。

仅仅由于测量的尺度不同,每个变量的变异性也会大不相同。时间的本示例更能说明问题,因为如果时间是以小时(数值在 120 到 500 之间)来衡量,那么方差就会比以天数(数值在 5 到 21 之间)来衡量更大。标准化通过将每个变量的变异性集为 1 来解决数据的这一问题。
如果 PCA 使用的变量都是按照相同的尺度测量的,并且已经具有相似的变异性,那么可能就没有必要对数据进行标准化。相反,在准备数据时,只需减去每个变量的均值(变异性变量的均值均为零)。这就是所谓的居中,比较少见,只有在确定变量的测量尺度具有可比性时才建议使用。