计算样本量时,很多科学家使用α和β的标准值。其总是将α和β分别设置为0.05和0.20(相当于将检验力设置为80%)。
标准方法的优点是其他人也这样做,无需过多思考。缺点是未做好决定样本量的工作
计算样本量时,您应根据试验环境以及出现I型或II型误差()的后果,选择α和幂的值。
让我们考虑某4个人为设计的示例。假设您正在运行一项筛选试验以检测您系统中的活性化合物。在此情况下,药物实际上无效时,I型误差的结论是药物有效。药物事实上有效时,II型误差的结论是该药物无效。但出现I型或II型误差的后果取决于试验背景。让我们考虑4种情况。
•A.从一个巨大的化合物库中筛选药物,不提供药物选择的生物学依据。您知道,一些“命中”将是假阳性(I型误差),因此计划在另一项试验中检验所有“命中”。因此,I型误差的结果是您需要重新检验该化合物。您不想重新检验过多的化合物,因此不能使α变大。但将其设置为一个相当高的高位值可能有意义,也许是0.10。如果您得出结论称,一种药物无统计学显著效果,而事实上该药物有效,则出现II型误差。然而,在此情况下,您还有几十万种药物待检验,您无法全部进行检验。通过选择较低的幂值(例如,60%),可使用较小样本量。您知道将缺失一些真正的药物,但能够在同一次工作中检验更多药物。因此,在此情况下,您可证明将α设置为高位值是一种正确做法。总结:低幂,高α。
•B.选择科学逻辑筛选所选定的药物。I型误差的后果与上述情况相同,因此可证明将α设置为0.10是一种正确做法。但II型误差的后果在此更严重。您谨慎选择这些化合物,因此II型误差意味着可能忽略一种伟大的药物。在此情况下,您需要将幂设置为高位值。总结:高幂,高α。
•C.仔细检验所选定的药物,没有机会进行第二轮检验。声称这些化合物可能不稳定,因此只能在一项试验中使用进行。该试验的结果(命中和未命中列表)将用于建立构-效关系,然后将用于提出一份新的化合物列表,供化学家合成。该任务既昂贵又耗时,因此很多事情均取决于该试验,而不会轻易重复该试验。在此情况下,I型和II型误差的后果非常糟糕,因此您将α设置为小值(例如,0.01),将幂设置为大值(可能是99%)。选择这些值意味着您将需要更大样本量,但为此付出的代价有价值。总结:高幂,低α。
•D.重新考虑场景C。场景C所需的样本量可能过高而不可行。根本无法运行很多重复样。在与同事交谈后,您确定出现I型误差(错误认为该种药物有效)的后果远比出现II型误差(缺失一种真正的药物)的后果严重。一次错误命中可能对构效关系研究产生巨大影响,并导致化学家合成错误化合物。误将一种药物称为无效药物将产生不太严重的后果。因此,您选择较低α值和较低幂。总结:低幂,低α。
这些场景经过人为调整,当然,唯一能够决定如何设计药物筛选工作的人员是开展筛选工作的研究人员。但这些场景指出,在仔细考虑犯I型和II型误差的后果之后,您应选择α和幂的值。这些后果取决于您试验的科学背景。仅仅使用α和幂的标准值并无意义。