p值的再现性比可能猜测的要低得多。
如果零假设为真,则P值的分布均匀。一半的P值将小于0.50,5%的P值将小于0.05等等。
但如果零假设为假呢?在此情况下,大多数人会期望P值具有较高的再现性。并非如此。
为演示这一点,我用GraphPad Prism进行了一些模拟。我从两个SD等于5.0的高斯群体中抽样。这两个群体的平均值相差5.0。这里有四项模拟实验。仅通过随机抽样将这四项实验分开。四个P值相差很大。
这是2500项模拟实验的P值分布。X轴表示不同的P值。Y轴表示在2500项模拟实验中该数值范围出现的频率。
除去2.5%的最高和最低P值,中间95%的P值范围介于0.0001517-0.6869之间 - 该范围覆盖了三个数量级以上!
在这些模拟中,中位P值约为0.05。我还用一个较小的SD进行了模拟,这当然得到较小的P值,但范围仍然覆盖了超过三个数量级。
这些模拟的想法来自Boos和Stefanski(1),他们通过对许多情况的模拟证明,重复模拟实验的P值变化超过三个数量级。
Cumming(2)问如果一个特定实验的P值等于0.05,那么重复实验的P值可能是多少(只考虑随机抽样,且假设两个实验都没有毛病)。令人惊讶的是,结果并不取决于样本量。当然,重复P值有50%的几率大于0.05。但令人惊讶的是(我认为),重复实验的P值有20%的几率大于0.38,5%的几率大于0.82。
在分析数据时,不依赖P值的原因众多。本页显示,除任何概念上的原因外,避免P值是一个非常实际的原因:P值不太可再现。
以上的数字来自于Boos和D. D.&Stefanski,洛杉矶《直觉生物统计学》。
1.Boos,D. D.和Stefanski,L. A。《P - 值精度和再现性》。《美国统计学家》65,213 - 221(2011)。
2.Cumming,G.。“重复和p区间:p值仅能模糊地预测未来,而置信区间更胜一筹”。《心理科学展望》3,286 - 300(2008)。