Please enable JavaScript to view this site.

解读低P值并不简单

想象一下,您正在筛选药物,以了解这些药物能否降低血压。您使用常用阈值P<0.05来定义统计学显著。基于您期望看到的散点量和您关注的最小变化,您为每项实验选择的样本量可确保有80%的检验力来检测到您正在寻找的P值小于0.05的差异。

如果您得到的P值小于0.05,则药物确实起效的几率是多少?

答案如下:这取决于您实验的背景。让我们从这样一个场景开始,在该场景中,基于工作的背景,您估计药物真正有效的几率为10%。当您完成1000项实验时会发生什么?考虑到您的10%估计值,下面两列的总数是100和900。由于检验力是80%,您期望80%真正有效药物在您的实验中产生的P值小于0.05,因此左上单元格为80。由于您将统计学显著的定义设为0.05,您期望5%的无效药物产生的P值小于0.05,因此右上单元格为45。

 

药物确实起效

药物确实不起效

总计

P<0.05,“显著”

80

45

125

P>0.05,“不显著”

20

855

875

总计

100

900

1000

总而言之,您预期会观察到125项实验产生“统计学显著”结果,其中仅80项实验中的药物确实起效。其他45项实验产生“统计学显著”结果,但均为假阳性或错误发现。错误发现率(缩写为FDR)为45/125或36%。不是5%,而是36%。这也称为“假阳性率”(FPR)。

下表摘自《基本生物统计学》第12章,其中示出了这种场景和其他三种场景的FDR。


先验概率

P<0.05的FDR

0.045<P<0.050的FDR

治疗前,比较临床试验中随机分配的组

0%

100%

100%

试验可能起效的药物

10%

36%

78%

按50:50的起效几率试验药物

50%

6%

27%

阳性对照

100%

0%

0%

 

上表中的每一行针对一个不同场景,场景由存在实际效果的不同先验(在收集数据前)概率定义。中间列示出了按上述方式计算的预期FDR(也称为“FPR”)。该列回答了以下问题:“如果P值小于0.05,则确实无效且结果只是随机抽样的几率有多大?”。请注意,该问题的答案并非5%。FDR与α之间存在很大差别,阈值P值可用于定义统计学显著。

右列(通过模拟确定)基于Colquhoun(1,2)的工作提出了略有不同的问题:“如果P值略小于0.05(介于0.045 - 0.050之间),则确实无效且结果只是随机抽样的几率有多大?”这些数字要高得多。将重点放在第三行,其中先验概率为50%。在此情况下,如果P值仅略低于0.05,则效果纯属偶然的几率为27%。注:27%,不是5%!在更具探索性的情况下,如果您认为先验概率为10%,则P值仅略低于0.05的错误发现率为78%。在此情况下,具有统计学显著的结果(按常规定义)几乎没有任何意义。

最后一行:您不能在隔绝环境中解读统计学显著(或P值)。您的解读取决于实验的背景。错误发现率可能远远高于α值(通常为5%)。解读结果需要常识、直觉和判断。

参考文献

1.Colquhoun,D.(2014)。调查错误发现率与p值的错误解读。《皇家学会开放科学》,1(3),140216 - 140216。http://doi.org/10.1098/rsos.140216

2.Colquhoun,D(2019)。假阳性风险:有关如何处理p值的建议。《美国统计学家》第73卷增刊1。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.