对于许多人而言,在研究开始前计算样本量似乎比较麻烦。为什么不在收集数据时进行分析?如果您的结果没有统计学显著性,则收集更多数据,并重新分析。如果您的结果具有统计学显著性,那就停止研究,不要把时间和金钱浪费在更多的数据收集。
该方法的问题是,如果您不喜欢结果,您会继续做,但如果您喜欢结果,您会停下来。其结果是,如果零假设为真,则获得“显著”结果的几率远高于5%。
下图通过模拟说明这一点。我们通过绘制高斯分布的值,模拟数据(平均值 = 40,SD = 15,但这些值是任意的数值)。两组均使用完全相同的分布进行模拟。我们在每组中选择N = 5,计算非配对t检验并记录P值。然后我们给每组增加一名受试者(所以N = 6),并重新计算t检验和P值。我们重复该过程,直至每组中的N = 100。然后我们重复整个模拟三次。通过比较具有相同群体平均值的两组,完成这些模拟。因此,我们获得的任何“统计学显著的”结果均必须是一个巧合 - I型误差。
该图表绘制Y轴上的P值与X轴上的样本量(每组)的关系。图表底部绿色阴影的区域显示,P值小于0.05,因此被视为“具有统计学显著性”。
绿色曲线显示第一组模拟试验的结果。N = 7时,P值小于0.05,但对于所有其他样本量,P值高于0.05。红色曲线表示第二个模拟试验。N = 61时以及N = 88或89时,P值小于0.05。蓝色曲线表示第三个试验。N = 92至N = 100时,其P值小于0.05。
如果我们遵循连续的方法,我们会宣称所有三个试验的结果均“具有统计学显著性”。在绿色试验中,N = 7时,我们会停止,因此永远不会看到曲线的虚线部分。N = 61时,我们会停止红色试验,且N = 92时,我们会停止蓝色试验。在这三种情况下,我们会宣称结果具有“统计学显著性”。
由于这些模拟是为两个群体中真实平均值相同的值创建,因此任何“统计学显著性”的声明均为I型误差。如果零假设为真(两个群体平均值相同),则预计在5%试验中会出现这种I型误差(如果我们使用alpha = 0.05的传统定义,则小于0.05的P值被认为显著)。但使用这种连续方法,我们所有三个试验均会导致I型误差。如果您充分的延长试验(无限的N),所有试验最终均会达到统计学显著性。当然,在某些情况下,即使无“统计学显著性”,您最终也会放弃。但这种连续方法将在远远超过5%试验中产生“显著”结果,即使零假设为真,且因此,该方法无效。
务必选择样本量并坚持下去。如果看到预期结果并停下来,看到非预期时继续执行,这就是自欺欺人。如果试验在结果不具有统计学显著性时继续,但在结果具有统计学显著性时停止,则将会错误地得出结果具有统计学显著性的概率远远大于5%。
有一些特殊的统计学技术用于顺序分析数据,如果结果不明确,则增加更多受试者,如果结果清楚,则停止试验。在高级统计学书籍中查找“顺序医学试验”,了解更多信息。