标准非配对t检验(但不是Welch t检验)假设两组数据是从具有相同标准差的群体中抽样,因此方差相同,即使其平均值不同。
作为t检验分析的一部分,Prism使用F检验,检验这一假设,从而比较两组的方差。请注意,Prism和InStat的早期版本中存在一个错误,给出的F检验的P值过小,相差两倍。
不要混淆组标准差相等性的P值检验和平均值相等性的P值检验。后一个P值回答您在选择t检验或单因素方差分析时最有可能想到的问题。检验方差相等性的P值可回答该问题:
如果群体具有相同的标准差,则观察到数据中出现的样本标准差之间出现一样大差异(或者更大差异)的可能性是多少?
如果P值很小,则拒绝零假设,即,两组均为从具有相同标准差(因此具有相同方差)的群体中抽样。
然后呢?可能会有五种答案。
•结论是:群体不同。在许多实验环境中,发现不同标准偏差与发现不同平均值同样重要。如果标准差不同,则不论t检验得出的平均值之间差异的结论是什么,群体不同。在将这种差异作为解决方法的障碍之前,先考虑一下它是否有助于解释数据。这可能是实验中最重要的结论!还要考虑具有较大标准差的组是否具有异质性。如果将一种治疗应用于该群体,也许它只对约一半的受试者有效。
•转换数据。在许多情况下,转换数据可使标准差相等。如果可行,您可对转换后的结果运行t检验。对数特别有帮助。(参阅《直觉生物统计学》第46章的示例)。从对数正态分布中进行数据抽样时,对数转换是合适的方法。在其他情况下,倒数或平方根转换可能有帮助。当然,理想情况下,应作为实验设计的一部分,对转换作出规划。
•忽略结果。对于相等或几乎相等的样本量(以及中等大小的样本),等标准差的假设并不是一个重要的假设。即使标准差不相等,t检验也能很好地工作。换言之,只要样本量不是很小,且样本量之间的差距也不是很大,检验能够有效的抵消违反假设的行为。如果您想使用普通的t检验,利用您实际使用的样本量和您预期的方差差异进行模拟,查看t检验的结果是否严重偏离。
•返回并重新运行t检验,检查允许不等方差的Welch t检验选项。尽管这听起来很合理,但Moser和Stevens已表明事实并非如此。如果您使用F检验,比较方差以决定使用哪一种t检验(常规或Welch),您将增加出现I型错误的风险。即使群体相同,您也会得出结论,群体的差异超过5%。Hayes和Cai得出同样的结论(2)。Welch检验必须被指定为实验设计的一部分。
•使用置换检验。GraphPad程序不提供这样的检验。该想法是把观察到的值当作特定值,并询问这些值在两组中的分布情况。在两组之间随机打乱数值,保持原始样本量。对于那些打乱的数据集,哪一部分在平均值与观察值之间有大(或更大)差异。这就是P值。群体具有不同的标准差时,该检验仍产生相当准确的P值(好,参考下文,第55页)。这些检验的缺点是其不容易产生置信区间。了解有关Wikipedia,或Hyperstat的更多信息。
是否可转而使用非参数Mann - Whitney检验?乍看之下,这似乎是解决不平等标准差问题的好办法。但它不是!Mann - Whitney检验可检验秩分布是否不同。如果您知道标准差不同,您已知道分布不同。您可能仍想知道平均值或中值是否不同。但各组具有不同分布时,非参数检验不检验中值是否不同。这是一个常见误解。
以上解决方案均并非很好的解决方案。最好可避免该问题。
避免该问题的一种方法是清楚地考虑数据的分布,并将数据转换为日常数据处理的一部分。如果您了解系统创建对数正态数据,请始终分析对数。
另一个解决办法是始终使用不等方差(Welch)t检验。如上所述,首先检验不相等的标准差,并以此结果为基础,决定是否使用普通或修正的(不相等的方差,Welch)t检验,这不是一个好主意。但总是使用修改后的检验是否有意义?Ruxton提出一个强有力的案例,证明这是最好的办法(3)。Delacre亦如此(4)。标准差实际上相等时,您会失去一些检验力,但标准差不相等时,您会获得检验力。
Welch t检验作出了一系列奇怪的假设。对于两个群体而言,平均值相同但标准差不同意味着什么?为何要对此进行检验?Swailowsky指出,这种情况在科学中很少出现(5)。我更喜欢把不等方差t检验作为一种建立置信区间的方法。您的首要目的不是问两个群体是否不同,而是量化这两个平均值之间的差异有多大。不等方差t检验报告两个平均值之间差值的置信区间,即使标准差不同,该区间也可用。
1.Moser, B.K.和G.R. Stevens,在两样本平均值检验中的方差同质性,《美国统计学家》,1992;46(1):19 - 22。
2.Hayes和Cai。进一步评估用于比较两个独立平均值的条件决策规则。《Br J Math Stat Psychol》(2007)
3.Ruxton。不等方差t检验是学生t检验和Mann - Whitney U检验的一种未得到充分利用的替代方法。行为生态学(2006)第17卷(4)第688页
4.Delacre,M.、Lakens,D.L.、和Leys,C.(2017)。为何心理学家应默认使用Welch t检验而非学生t检验。Rips 30:92-10。
5.S.S. Sawilowsky、Fermat、Schubert、Einstein和Behrens - Fisher:具有不同方差的两个平均值之间的可能差异。《现代应用统计方法杂志》(2002)第1卷,第461 - 472页
6.P.I. Good和J.W. Hardin,统计学中的常见错误:(以及如何避免),2003,IBSN:0471460680。