让我们考虑一下,如果进行多次比较,并确定每次结果是否 "显著",会发生什么情况。同时假设我们是 "自然之母",因此知道数据采样的人群中是否真的存在差异。
在下表中,最上面一行代表的是零假设为真的比较结果--治疗确实无效。然而,有些比较会错误地得出 "显著"结论。第二行显示的是确实存在差异的比较结果。即便如此,你也不会在每个实验中都得到 "显著"的结果。
A、B、C 和 D 代表比较的次数,因此 A+B+C+D 的总和等于你正在进行的比较的总次数。你不能根据实验数据制作这个表格,因为这个表格是许多实验的概览。
"显著" |
"不显著 |
总计 |
|
无差异。 零假设成立 |
A |
B |
A+B |
差异确实存在 |
C |
D |
C+D |
总计 |
A+C |
B+D |
A+B+C+D |
在上表中,alpha 是 A/(A+B) 的期望值。如果您将 alpha 设为通常的 0.05,这意味着您期望在零假设为真(A+B)时所做的所有比较中,有 5%具有统计学显著性(在第一列中)。因此,您希望 A/(A+B) 等于 0.05。
纠正多重比较的通常方法是设置更严格的阈值来定义统计学显著性。我们的目标是设定一个严格的显著性定义,即--如果所有零假设都成立--仅有 5%的几率偶然得到一个或多个 "显著"结果,因此有 95% 的几率没有一个比较会得出 "显著"结论。这 5%适用于整个实验,因此有时被称为实验错误率 或族状错误率(两者是同义词)。
为宣布统计学显著性设置更严格的阈值,可确保您更少可能被错误的 "统计学显著性"结论误导。但这一优势也是有代价的:您的实验将降低检验真实差异的检验力。
Bonferroni、Tukey、Dunnett、Dunn、Holm等方法都采用了这种方法。