为什么不总是使用非参数检验?你可以避免假设数据是从高斯分布中采样的--这个假设很难确定。问题在于,非参数检验的功效低于标准检验。功效低多少?答案取决于样本量。
本示例最能说明这一点。下面是一些样本数据,比较两组测量结果,每组有三个受试者。
对照组 |
治疗组 |
3.4 |
1234.5 |
3.7 |
1335.7 |
3.5 |
1334.8 |
看到这些数值,很明显,治疗大大增加了测量值。
但是,让我们用Mann-Whitney 检验(非参数检验,用于比较两个不匹配组)来分析这些数据。该检验只能看到等级。因此,将上述数据输入 Prism,但Mann-Whitney计算只能看到等级:
对照组 |
治疗组 |
1 |
4 |
3 |
6 |
2 |
5 |
然后,Mann-Whitney 检验会问,如果在对照组和治疗组之间随机调整等级,在一组中获得三个最低等级和在另一组中获得三个最高等级的几率是多少。非参数检验只看名次,忽略了治疗值不仅高,而且高出一大截的事实。答案即双尾 P 值为 0.10。按照传统的显著性水平 5%,这些结果并没有显著差异。本示例表明,在每组 N=3 的情况下,Mann-Whitney 检验永远无法得到小于 0.05 的 P 值。换句话说,在每组有 3 名受试者和 "显著性"的传统定义下,Mann-Whitney 检验的检验力为零。
相反,在大样本的情况下,Mann-Whitney检验的检验力几乎与 t 检验相当。要进一步了解大样本量下非参数检验和传统检验的相对检验力,请在高级统计书籍中查找 "渐近相对效率"一词。