Please enable JavaScript to view this site.

Navigation: 统计原理 > 假设检验和统计学显著性

错误发现率和统计学显著性

Scroll Prev Top Next More

解读低 P 值并不简单

想象一下,您正在筛选是否能降低血压的药物。您通常使用 P<0.05 的阈值来定义统计学显著性。根据您期望看到的分散程度和您所关心的最小变化,您为每个实验选择了样本量,以便在 P 值小于 0.05 的情况下有 80% 的统计功效来检测您所寻找的差异。

如果 P 值小于 0.05,那么药物真正起作用的几率有多大?

答案是:这依赖于您的实验背景。让我们从这样一种情况开始:根据工作的背景,您估计药物真正起作用的几率为 10%。如果进行 1000 次实验,结果会怎样?根据 10% 的估计,下面两列的总数分别为 100 和 900。由于检验力为 80%,您期望 80% 真正有效的药物在您的实验中产生的 P 值小于 0.05,因此左上方的单元格为 80。由于您将统计学显著性的定义设为 0.05,因此您期望 5%的无效药物的 P 值小于 0.05,所以右上单元格为 45。

 

药物确实有效

药物确实无效

总计

P<0.05,"显著

80

45

125

P>0.05,"无意义

20

855

875

总计

100

900

1000

总共有 125 个实验得出了 "统计学显著"的结果,其中只有 80 个实验的药物真正起了作用。另外 45 个实验虽然得出了 "统计学显著 "结果,但却是假阳性或假发现。错误发现率(简称 FDR)为 45/125,即 36%。不是 5%,而是 36%。这也被称为假阳性率(FPR)。

下表摘自《基本生物统计学》第 12 章,显示了这种情况和其他三种情况下的 FDR。


先验概率

P<0.05 的 FDR

0.045 < P < 0.050 的 FDR

在治疗前比较临床试验中随机分配的组别

0%

100%

100%

测试可能有效的药物

10%

36%

78%

测试有效几率为 50:50 的药物

50%

6%

27%

阳性对照

100%

0%

0%

 

上表中的每一行都是根据不同的先验概率(收集数据前)定义的不同情况下的真实效应。中间一栏显示的是上文计算的预期 FDR(也称为 FPR)。这一列回答了一个问题:"如果 P 值小于 0.05,那么真的没有影响而结果只是随机抽样的概率是多少?请注意,这个答案不是 5%。FDR 与用于定义统计学显著性的临界 P 值 alpha 有很大不同。

右边一列是通过模拟确定的,根据 Colquhoun(1,2)的研究提出了一个略有不同的问题:"如果 P 值只比 0.05 小一点点(在 0.045 和 0.050 之间),那么真的没有影响而结果只是随机抽样的几率有多大?" 这些数字要高得多。重点看第三行,这里的先验概率是 50%。在这种情况下,如果 P 值略低于 0.05,则有 27% 的几率是偶然效应。注意:是 27%,而不是 5%!而在更具探索性的情况下,如果您认为先验概率为 10%,那么 P 值刚刚勉强低于 0.05 的错误发现率为 78%。在这种情况下,统计学显著结果(传统定义)几乎毫无意义。

一句话: 你不能在真空中解读统计学显著性(或 P 值)。你的解读依赖于实验的背景。错误发现率可能远高于α值(通常为 5%)。解读结果需要常识、直觉和判断。

参考文献

1.Colquhoun, D. (2014).错误发现率和 p 值误读的调查。皇家学会开放科学》,1(3), 140216-140216.http://doi.org/10.1098/rsos.140216

2.Colquhoun, D (2019).假阳性风险:关于如何处理 p 值的建议》。美国统计学家》,第 73 卷,增刊 1。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.