标准非配对 t 检验(但不包括韦尔奇 t 检验)假定两组数据是从具有相同标准偏差的群体中抽取的样本,因此即使它们的均值不同,它们的方差也相同。
作为 t 检验分析的一部分,Prism 使用 F 检验来比较两组的方差,从而检验这一假设。请注意,Prism 和 InStat 早期版本中的一个错误导致 F 检验的 P 值小了 2 倍。
不要把检验两组标准偏差是否相等的 P 值与检验平均值是否相等的 P 值混为一谈。后一个 P 值才是你选择 t 检验或单向方差分析时最有可能思考的问题的答案。检验等方差检验的 P 值回答了这个问题:
如果 P 值很小,则拒绝 "两组样本都是从具有相同标准偏差(从而具有相同方差)的群体中抽取的 "零假设"。
然后呢?有五种可能的答案。
•得出群体不同的结论。在许多实验中,发现不同的标准偏差与发现不同的平均数同样重要。如果标准偏差不同,那么无论 t 检验对均值之间的差异得出什么结论,种群都是不同的。在把这种差异当作一个需要解决的问题之前,请想一想它告诉了你关于数据的什么。这可能是实验中最重要的结论!还要考虑标准偏差较大的组是否具有异质性。如果对该组进行了处理,也许只对大约一半的受试者有效。
•转换数据。在很多情况下,转换数据可以使标准偏差相等。如果有效,您就可以对转换后的结果进行 t 检验。对数尤其有用。(本示例参见《直观生物统计学》第 46 章)。对数变换适用于从对数正态分布中采样的数据。在其他情况下,倒数或平方根变换可能有用。当然,理想情况下,转换应作为实验设计的一部分进行规划。
•忽略结果。在样本量相等或接近相等(样本量适中)的情况下,标准偏差相等的假设并不重要。即使在标准偏差不相等的情况下,t 检验也能很好地发挥作用。换句话说,只要样本量不是很小,样本量相差不大,t 检验对违反该假设的情况是稳健的。如果你想使用普通的 t 检验,请用你实际使用的样本量和你预期的方差差异进行一些模拟,看看 t 检验结果偏离得有多远。
•返回并重新运行 t 检验,选中允许不等方差的韦尔奇 t 检验选项。虽然这听起来很合理,但 Moser 和 Stevens (1) 的研究表明,这并不合理。如果使用 F 检验来比较方差,以决定使用哪种 t 检验(普通或韦尔奇),就会增加 I 型错误的风险。即使两个群体完全相同,你也会在超过 5%的情况下得出两个群体不同的结论。Hayes 和 Cai 得出了相同的结论 (2)。韦尔奇检验必须作为实验设计的一部分。
•使用置换检验。没有 GraphPad 程序提供这种检验。其思路是将观察值视为给定值,并询问这些值在两组中的分布情况。在两组之间随机抽样,保持原来的样本量。在这些洗过的数据集中,有多大一部分的均值之差与观测值一样大(或更大)。这就是 P 值。当人群具有不同的标准偏差时,这种检验仍能得出合理准确的 P 值(很好,参考下文第 55 页)。这些检验的缺点是不容易得出置信区间。更多信息,请查阅维基百科或Hyperstat。
改用非参数Mann-Whitney检验如何?乍一看,这似乎是解决标准偏差不等问题的好办法。但事实并非如此!Mann-Whitney检验测试的是等级分布是否不同。如果知道标准偏差不同,就已经知道分布不同了。您可能还想知道平均值或中位数是否不同。但是,当各组的分布不同时,非参数检验并不能检验中位数是否不同。这是一个常见的误解。
上述解决方案都不是很好。最好的办法是避免这个问题。
避免问题的方法之一是清楚地考虑数据的分布,并在日常数据处理中对数据进行转换。如果你知道一个系统会产生对数正态性数据,那就总是分析对数。
另一种解决方案是始终使用不等方差(韦尔奇)t 检验。如上所述,首先检验标准偏差是否不相等,然后根据检验结果决定使用普通或修正(不等方差,韦尔奇)t 检验,这并不是一个好主意。但总是使用修正检验有意义吗?Ruxton 有力地证明了这是最好的做法(3)。Delacre 也是如此 (4)。在标准偏差事实上相等的情况下,检验力会有所下降,但在标准偏差不相等的情况下,检验力会有所提高。
韦尔奇 t 检验提出了一系列奇怪的假设。两个种群的均值相同但标准偏差不同意味着什么?为什么要进行检验呢?斯韦洛夫斯基指出,这种情况在科学中并不常见(5)。我更愿意把不等方差 t 检验看作是建立置信区间的一种方法。您的首要目标不是询问两个群体是否存在差异,而是量化两个均值之间的差距有多大。不等方差 t 检验报告了两个均值之间差异的置信区间,即使标准偏差不同也可以使用。
1.Moser, B.K. and G.R. Stevens Homogeneity of Variance in the Two Sample Means Test, The American Statistician, 1992; 46(1):19-22.
2.Hayes and Cai.进一步评估比较两个独立均值的条件判定规则。Br J Math Stat Psychol (2007) 3.
3.Ruxton.不等方差 t 检验是学生 t 检验和 Mann-Whitney U 检验的一种未被充分利用的替代方法。Behavioral Ecology (2006) vol. 17 (4) pp.
4.Delacre, M., Lakens, D.L., and Leys, C. (2017).为什么心理学家应该默认使用韦尔奇 t 检验而不是学生 t 检验?Rips 30: 92-10.
5.S.S. Sawilowsky. 费马、舒伯特、爱因斯坦和贝伦斯-费舍:费马、舒伯特、爱因斯坦和贝伦斯-费舍:具有不同方差的两个均值之间的概率差异。J. Modern Applied Statistical Methods (2002) vol. 1 pp.461-472
6.P.I. Good and J.W. Hardin,Common Errors in Statistics: (and How to Avoid Them), 2003, IBSN:0471460680.