选择使用t检验比较两个非配对组的平均值时,有以下两种选择:
•使用标准的非配对t检验。其假设两组数据均为从具有相同标准差的高斯群体中抽样。
•使用不等方差t检验,又称“Welch t检验”。该检验假设两组数据均为从高斯群体中抽样,但并不假设这两个群体具有相同的标准差。
为解读任何P值,必须仔细定义零假设。对于不等方差t检验,零假设是两个群体平均值相同,但两个群体方差可能不同。如果P值很大,您不会拒绝那个零假设,因此得出结论,即使您假设两个群体可能有不同的标准差,证据也不能说服您两个群体的平均值不同。奇怪的假设。对于两个群体而言,平均值相同但标准差不同意味着什么?为何要对此进行检验?Swailowsky指出,这种情况在科学中很少出现(1)。
我认为当您将不等方差t检验作为一种建立置信区间的方法时,它会更有帮助。您的首要目的不是问两个群体是否不同,而是量化这两个平均值之间的差异有多大。不等方差t检验报告两个平均值之间差值的置信区间,即使标准差不同,该区间也可用。
两个t检验均报告P值和置信区间。这些计算在两个方面有所不同:
t比值的计算方法是将两个样本平均值之间的差值除以两个平均值之间差值的标准误差。该标准误差由两个标准差和样本量计算得出。两组样本量相同时,两次t检验的标准误差相同。但两组样本量不同时,Welch t检验的t比值不同于普通的t检验。差值标准误差也用于计算两个平均值之间差值的置信区间。
对于普通的非配对t检验,将df计算为总样本量(两组)减二。由复杂的公式计算得出不等方差t检验的df,该公式考虑两个标准差之间的差异。如果两个样品具有相同标准差,Welch t检验的df将与标准t检验的df相同。然而,在大多数情况下,两个标准差并不相同,Welch t检验的df小于非配对t检验的df。计算通常产生一个非整数的df值。Prism报告并使用该df分数值。许多程序,包括Prism 5,以及InStat和我们的QuickCalc均将df向下舍入至下一个较小的整数。因此,Prism报告的P值可能稍低于其他程序报告的P值。
决定何时使用不等方差t检验并不简单。
首先检验方差是否不同,然后相应地选择普通t检验或Welch t检验。事实上,这并不是一份良好计划。您应决定把该检验作为试验计划的一部分。
总是选择Welch检验,结果会怎样?Ruxton(2)和Delacre(3)有力地证明了这是一个好主意。标准差实际上相等时,您会失去一些检验力,但标准差不相等时,您会获得检验力。
1.S.S. Sawilowsky、Fermat、Schubert、Einstein和Behrens - Fisher:具有不同方差的两个平均值之间的可能差异。《现代应用统计方法杂志》(2002)第1卷,第461 - 472页
2.Ruxton。不等方差t检验是学生t检验和Mann - Whitney U检验的一种未得到充分利用的替代方法。行为生态学(2006)第17卷(4)第688页
3.Delacre,M.、Lakens,D.L.、和Leys,C.(2017)。为何心理学家默认使用Welch t检验而非学生t检验。Rips 30:92-10。