Please enable JavaScript to view this site.

非配对检验的两种选择

当您选择用 t 检验比较两个非配对组的平均值(或几何均值)时,您有两种选择:

使用标准非配对检验。它假定两组数据都是从具有相同方差(标准偏差或几何标准偏差)的总体分布中抽样得到的。

使用不等方差检验,也叫韦尔奇检验。它不假定数据是从具有相同方差(标准偏差或几何标准偏差)的群体中采样的。

一个潜在的奇怪零假设,但却是一个有用的检验

要解读任何 P 值,必须仔细定义零假设。对于韦尔奇(方差不等)t 检验,零假设是两个种群具有相同的均值(对于从正态分布中采样的数据)或几何均值(对于从对数正态分布中采样的数据)。但是,这两个群体的方差可能不同。

如果 P 值很大,就不能拒绝零假设。换句话说,尽管你假设两个种群的标准偏差可能不同,但证据并不能说服你这两个种群的均值(或几何均值)是不同的。这真是一组奇怪的假设。两个种群的均值相同但标准偏差不同意味着什么?为什么要进行检验呢?虽然这种情况在科学中并不常见(1),但仍有充分的理由考虑使用韦尔奇检验。

建议将韦尔奇检验作为默认检验,除非有令人信服的理由使用等方差检验。为什么呢?当被抽样人群的方差真正相等时,韦尔奇检验的表现几乎与等方差检验一样好(与等方差检验相比,韦尔奇检验的检验力损失最小)。不过,当被抽样群体的方差确实不同时,韦尔奇检验的效果要好得多,与等方差检验相比,韦尔奇检验表现出更高的检验力,并能保持适当的 I 型错误率(α)。

不等方差 t 检验的计算方法

韦尔奇检验和等方差检验都会报告 P 值和置信区间。计算方法有两点不同:

计算均差的标准误差

t 比率的计算方法是:首先确定两个样本均值之差(对于从正态分布中采样的数据)或两个样本几何均值对数之差(对于从对数正态分布中采样的数据)。然后将该值除以差值的标准误差。这个标准误差是根据两组的方差和样本量计算出来的。当两组样本量相同时,两个 t 检验的标准误差相同。但当两组样本量不同时,韦尔奇 t 检验的 t 比率与普通 t 检验不同。这个差异的标准误差也用于计算两个均值差异的置信区间。

计算 df

对于等方差非配对 t 检验,df 的计算是总样本量(两组)减去 2。韦尔奇检验的 df 是通过一个复杂的公式计算出来的,其中考虑了两个方差之间的差异。如果两个样本的方差相同,则韦尔奇 t 检验的 df 与标准 t 检验的 df 相同。但在大多数情况下,两个方差并不完全相同,韦尔奇 t 检验的 df 将小于非配对 t 检验的 df。计算得出的 df 值通常不是整数。Prism 会报告并使用 df 的分数值。包括 Prism 5 在内的许多程序以及 InStat 和我们的 QuickCalc 都会将 df 四舍五入到下一个较小的整数。因此,Prism 报告的 P 值可能比其他程序报告的 P 值要小一些。

何时选择不等方差(韦尔奇)t 检验

决定何时使用不等方差 t 检验并不简单。

首先检验方差是否不同,然后相应地选择普通或韦尔奇 t 检验似乎是明智的。事实上,这并不是一个好计划。你应该在实验计划中决定使用这种检验。

那么总是选择韦尔奇检验呢?Ruxton (2) 和 Delacre (3) 有力地证明了这是个好主意。当标准偏差实际上相等时,您会失去一些检验力,但当标准偏差不相等时,您会获得检验力。

参考文献

1.S.S. Sawilowsky. 费马、舒伯特、爱因斯坦和贝伦斯-费舍尔:具有不同方差的两个均值之间的概率差异。J. Modern Applied Statistical Methods (2002) vol. 1 pp.461-472

2.Ruxton.不等方差 t 检验是学生 t 检验和 Mann-Whitney U 检验的一种未被充分利用的替代方法。Behavioral Ecology (2006) vol. 17 (4) pp.

3.Delacre, M., Lakens, D.L., and Leys, C. (2017).为什么心理学家应该默认使用韦尔奇 t 检验而不是学生 t 检验?Rips 30: 92-10.

© 1995-2019 GraphPad Software, LLC. All rights reserved.