PCA只会分析连续变量,因此在数据输入时直接忽略分类变量。如果您的数据表包含分类变量,则在生成主成分的过程中将不会包括这些分类变量。但这些分类变量可用于定制分析的图表输出(PC得分图)。这有助于直观识别PC得分图上的特定相关组。
标准化数据后,每个变量(每列)的平均值为0.0,标准差(SD)为1.0。居中数据后,每个变量的平均值为0.0,但SD不会相同(每个SD与分析变量的SD相同)。仅当所有变量均采用相同单位时,单独居中才有意义,且您知道变量总体上具有相同SD(SD之间的任何差异均由随机抽样导致)。这种情况非常罕见,因此,如果您选择居中,而非标准化,则确保可证明这种选择合理。选择居中(而非标准化)时,SD较大的变量将对分析产生更大影响,对PC规格的要求也更高。但这可能仅归因于测量尺度(英寸 vs. 英里),因此可能会破坏PCA的真正意义。
统计学家似乎都同意,与Prism提供的其他方法相比,平行分析是更优的主成分选择方法。提供有其他较旧的方法,但这些方法大多已过时,仅作为确认先前报告结果的手段。如无足够充分的理由,不得使用这些方法。
我们建议查看表格式结果表上报告的方差比例。PCA旨在减少描述数据所需的变量数量,同时尽可能多地保留与原始数据的方差。寻找由成分解释的方差比例的趋势。如果原始数据中存在相关性(趋势),则前几个成分应解释大部分方差,最后几个成分解释的方差很少。如果原始数据中的变量几乎或完全不相关(互不相关),则每个主成分将解释大致相同的变量数量。在此情况下,PCA不能用于降维,因此很可能不需要。这也可以通过分析产生的变异比例图进行观察。
主成分问答页面提供了关于PCA的其他常见问题的答案