在计算样本量时,许多科学家都会使用标准的 alpha 值和 beta 值。他们总是将 alpha 设为 0.05,将 beta 设为 0.20(相当于将检验力设为 80%)。
标准方法的优点是其他人也都这么做,而且不需要过多思考。缺点是它不一定能很好地决定样本量
在计算样本量时,您应该根据实验环境以及出现第一类或第二类错误()的后果来选择α和检验力的值。
让我们来看四个有点勉强的本示例。假设您正在进行一项筛选检验,以检测在系统中具有活性的化合物。在这种情况下,第一类错误是断定某种药物有效,而实际上无效。第二类错误是在药物有效的情况下,得出药物无效的结论。但犯下第一类或第二类错误的后果依赖于实验的背景。让我们考虑四种情况。
•A.从一个庞大的化合物库中筛选药物,选择药物时没有生物学依据。您知道有些 "命中 "将是假阳性(I 类错误),因此计划在另一种试验中测试所有这些 "命中"。因此,I 类错误的后果是您需要重新测试该化合物。您不希望重新测试太多的化合物,因此不能将 alpha 设得太大。但将其设置为一个相当高的值,也许是 0.10,也许是有道理的。如果您认为某种药物在统计学上没有显著效果,而实际上这种药物是有效的,那么就会出现第二类错误。但在这种情况下,你还有成千上万种药物需要测试,不可能对所有药物都进行测试。通过选择较低的检验力值(比如 60%),您可以使用较小的样本量。你知道你会漏掉一些真正的药物,但你可以用同样的努力测试更多的药物。因此,在这种情况下,您可以将阿尔法值设为较高。总结:低检验力,高 alpha 值。
•B.以科学逻辑筛选选定的药物。第一类错误的后果与之前一样,因此可以将 alpha 设为 0.10。但在这里,第二类错误的后果更为严重。您在挑选这些化合物时非常谨慎,因此第二类错误意味着可能会忽略一种很好的药物。在这种情况下,您需要将检验力设置为高值。总结:高检验力,高α。
•C.测试精心挑选的药物,没有机会进行第二轮测试。说这些化合物可能不稳定,所以只能在一次实验中使用。这次实验的结果--命中和未命中的化合物清单--将被用来进行结构-活性关系分析,然后得出新的化合物清单,供化学家合成。这将是一项昂贵而耗时的任务,因此这项实验的重要性不言而喻,而且不容易重复。在这种情况下,I 类和 II 类错误的后果都很严重,因此您将 alpha 设为一个小值(比如 0.01),检验力设为一个大值(也许是 99%)。选择这些值意味着你需要更大的样本量,但在这里付出的代价是值得的。总结:高检验力,低 alpha 值。
•D.重新考虑方案 C。方案 C 所需的样本量可能太高,不可行。您根本无法运行那么多重复样本。在与同事讨论后,您认为出现 I 类错误(错误地得出药物有效的结论)的后果比出现 II 类错误(漏掉真正的药物)要严重得多。一个错误的结论可能会对结构-活性研究产生巨大影响,并导致化学家合成出错误的化合物。而误判药物无活性的后果则没有那么严重。因此,您需要选择较低的α值和较低的检验力。总结:低检验力,低 alpha 值。
这些情景都是人为设计的,当然,唯一能够决定如何设计药物筛选工作的是进行筛选的研究人员。但这些情景说明了一个问题:在选择α和检验力的值时,您应该仔细考虑出现第一类和第二类错误的后果。这些后果依赖于您实验的科学背景。仅仅使用标准的 alpha 值和检验力值是没有意义的。