解读低P值并不简单
想象一下,您正在筛选药物,以了解这些药物能否降低血压。您使用常用阈值P<0.05来定义统计学显著。基于您期望看到的散点量和您关注的最小变化,您为每项实验选择的样本量可确保有80%的检验力来检测到您正在寻找的P值小于0.05的差异。
如果您得到的P值小于0.05,则药物确实起效的几率是多少?
答案如下:这取决于您实验的背景。让我们从这样一个场景开始,在该场景中,基于工作的背景,您估计药物真正有效的几率为10%。当您完成1000项实验时会发生什么?考虑到您的10%估计值,下面两列的总数是100和900。由于检验力是80%,您期望80%真正有效药物在您的实验中产生的P值小于0.05,因此左上单元格为80。由于您将统计学显著的定义设为0.05,您期望5%的无效药物产生的P值小于0.05,因此右上单元格为45。
|
药物确实起效 |
药物确实不起效 |
总计 |
---|---|---|---|
P<0.05,“显著” |
80 |
45 |
125 |
P>0.05,“不显著” |
20 |
855 |
875 |
总计 |
100 |
900 |
1000 |
总而言之,您预期会观察到125项实验产生“统计学显著”结果,其中仅80项实验中的药物确实起效。其他45项实验产生“统计学显著”结果,但均为假阳性或错误发现。错误发现率(缩写为FDR)为45/125或36%。不是5%,而是36%。这也称为“假阳性率”(FPR)。
下表摘自《基本生物统计学》第12章,其中示出了这种场景和其他三种场景的FDR。
先验概率 |
P<0.05的FDR |
0.045<P<0.050的FDR |
|
---|---|---|---|
治疗前,比较临床试验中随机分配的组 |
0% |
100% |
100% |
试验可能起效的药物 |
10% |
36% |
78% |
按50:50的起效几率试验药物 |
50% |
6% |
27% |
阳性对照 |
100% |
0% |
0% |
上表中的每一行针对一个不同场景,场景由存在实际效果的不同先验(在收集数据前)概率定义。中间列示出了按上述方式计算的预期FDR(也称为“FPR”)。该列回答了以下问题:“如果P值小于0.05,则确实无效且结果只是随机抽样的几率有多大?”。请注意,该问题的答案并非5%。FDR与α之间存在很大差别,阈值P值可用于定义统计学显著。
右列(通过模拟确定)基于Colquhoun(1,2)的工作提出了略有不同的问题:“如果P值略小于0.05(介于0.045 - 0.050之间),则确实无效且结果只是随机抽样的几率有多大?”这些数字要高得多。将重点放在第三行,其中先验概率为50%。在此情况下,如果P值仅略低于0.05,则效果纯属偶然的几率为27%。注:27%,不是5%!在更具探索性的情况下,如果您认为先验概率为10%,则P值仅略低于0.05的错误发现率为78%。在此情况下,具有统计学显著的结果(按常规定义)几乎没有任何意义。
最后一行:您不能在隔绝环境中解读统计学显著(或P值)。您的解读取决于实验的背景。错误发现率可能远远高于α值(通常为5%)。解读结果需要常识、直觉和判断。
参考文献
1.Colquhoun,D.(2014)。调查错误发现率与p值的错误解读。《皇家学会开放科学》,1(3),140216 - 140216。http://doi.org/10.1098/rsos.140216
2.Colquhoun,D(2019)。假阳性风险:有关如何处理p值的建议。《美国统计学家》第73卷增刊1。