计算样本量时,许多科学家使用α和β的标准值。他们始终将α设置为0.05且将β设置为0.20(其允许80%的幂)。
标准方法的优点是其他人也这样做,且其不需要过多的思考。缺点是其未做好决定样本量的工作
计算样本量时,您应根据试验环境以及犯I型或II型错误()的后果来选择α和幂的值。
让我们考虑四个某些人为设计的示例。假设您正在运行一个筛选检验来检测您系统中的活性化合物。在此情况下,当药物实际无效时,I型错误的结论是药物是有效的。当药物实际有效时,II型错误的结论是该药物是无效的。但犯I型或II型错误的后果取决于试验的背景。让我们考虑四种情况。
•A. 从一个巨大的化合物库中筛选药物,没有选择药物的生物学原理。您知道,一些“命中”将是假阳性(I型错误),因此计划在另一个试验中检验所有那些“命中”。因此I型错误的结果是您需要重新检验该化合物。您不想重新检验过多的化合物,因此不能使α变大。但将其设置为一个相当高的高位值可能有意义,也许是0.10。您得出结论是,一种药物无统计学显著性效果,而事实上该药物有效,则会出现II型错误。但在此情况下,您还有几十万种药物待检验,且您不可能全部检验。通过选择较低的幂值(如60%),您可使用较小的样本量。您知道您将缺失一些真正的药物,但您能够用同样的努力检验更多的药物。因此,在此情况下,您可证明将α设置为高位值是正确的。总结:低幂,高α。
•B. 选择科学逻辑筛选所选定的药物。I型错误的后果和以往一样,因此您可证明将α设置为0.10是正确的。但II型错误的后果在此更严重。您谨慎地选择了这些化合物,因此II型错误意味着一种可能会被忽略的伟大药物。在此情况下,您需要将幂设置为高位值。总结:高幂,高α。
•C. 仔细检验所选定的药物,没有机会进行第二轮检验。声称这些化合物可能不稳定,因此您只能在一个试验中使用它们。该试验的结果--命中和未命中的列表 - 将用于建立一个结构 - 活性关系,然后其将用于提出一个新的化合物列表以供化学家合成。这将是一项既昂贵又耗时的任务,因此很多事情均取决于该试验,而该试验不会轻易重复。在此情况下,I型和II型错误的后果均非常糟糕,因此您将α设置为一个小值(例如,0.01),将幂设置为一个大值(可能是99%)。选择这些值意味着您将需要一个更大的样本量,但在此付出的代价是值得的。总结:高幂,低α。
•D. 重新考虑场景C。场景C所需的样本量可能过高而不可行。您根本无法运行那么多的重复数。在与您的同事们交谈后,您决定犯I型错误(错误地认为这一种药物是有效的)的后果比犯II型错误(缺失一种真正的药物)要严重得多。一次错误的打击可能会对您的构效关系研究产生巨大影响,并导致化学家合成错误的化合物。错误地将一种药物称为无效药物将会产生不太严重的后果。因此,您选择了一个较低的α值和一个较低的幂。总结:低幂,低α。
这些场景均由人设计而成,我当然不能告诉任何人如何设计他们的努力以筛选药物。但这些场景指出,在仔细考虑犯I型和II型错误的后果之后,您应选择α和幂的值。这些后果取决于您试验的科学背景。仅仅使用α和幂的标准值是没有意义的。