让我们考虑一下,如果您做了许多比较,并确定每个结果是否“显著”,会发生什么。另外,假设我们是“大自然母亲”,因此我们知道采集数据群体中是否真的存在差异。
在下表中,最上面一行代表了比较结果,其中零假设为真 - 治疗确实不起作用。尽管如此,一些比较会错误地得到“显著”结论。第二条线示出了真正存在差异的比较结果。即便如此,您也不会在每项实验中均得到“显著”结果。
A、B、C和D代表比较的次数,因此A+B+C+D的和等于正在进行比较的总数。不能根据实验数据制作这张表,因为这张表是许多实验的总览。
“显著” |
“非显著” |
总计 |
|
无差异。 真实零假设 |
. |
B |
A+B |
差异确实存在 |
C |
D |
C+D |
总计 |
A+C |
B+D |
A+B+C+D |
在上表中,α是A/(A+B)的期望值。如果您将α设置为通常值0.05,这意味着当零假设为真(A+B)时,您期望所有比较的5%具有统计学显著(在第一列中)。因此您期望A/(A+B)等于0.05。
常用于校正多重比较的方法是设置更严格的阈值来定义统计学显著性。我们的目标是设定一个严格的显著性定义,即,如果所有零假设均为真,则通过偶然仅有5%的机会获得一个或多个“显著”结果,因此比较结果有95%的机会 无 得到“显著”的结论。5%适用于整个实验,因此有时被称为 总错误率 或者 族状错误率(这两个是同义词)。
设定一个更严格的阈值来声明统计学显著,以确保您不太可能被“统计学显著”的错误结论所误导。但这种优势有代价:您的实验检测真实差异的能力将会减弱。
Bonferroni、Dunnett、Dunn、Holm(以及更多)方法全部使用了该方式。