许多实验和临床试验的受试者人数太少。研究力量不足是白费力气,因为即使治疗效果显著,也很可能无法被发现。即使治疗大大改变了结果,研究也只有很小的几率发现 "统计学显著"的效果。
因此,在规划研究时,您需要选择适当的样本量。所需样本量依赖于您对这些问题的回答:
您希望您的数据在取样人群中的分散程度如何?
用统计学术语来说,这就是在问人群中有多少差异。为了确定样本量,您必须估算出群体中的方差(或标准偏差)。如果无法估计标准偏差,就无法计算需要多少受试者。如果您预计会有很多散差(方差很大),那么就很难从随机噪音中分辨出真正的效应,您就需要很多受试者。
这个问题的答案就是您对统计学显著性的定义。几乎所有研究者都会选择 5%的显著性水平,这意味着 P 值小于 0.05 就被认为是 "统计学显著"。如果您选择更小的显著性水平(比如 1%),那么您就需要更多的受试者。
这个问题比前两个问题棘手得多。每个人都希望规划的研究能检测到非常小的差异(小效应量),但这需要大样本量。大多数情况下,您会受到资源(时间、金钱、可用参与者等)的限制。您必须能够选择一个 "有意义"的效应量,但这个效应量在您可用的资源范围内又是可行的。
如果存在差异,您有多确信您的研究能够发现差异?
换句话说,您需要多大的检验力?就像上一个问题一样,每个人都希望设计一项检验力很大的研究,这样如果治疗确实有效,就很有把握得出 "统计学显著"的结果,但这也需要大量的受试者。
Prism Cloud 中提供的 Prism 功率分析计算器并不要求您回答最后两个问题,而是以表格的形式显示结果,让您看到样本量、功率和可检验效应量之间的权衡。您可以查看此表,考虑实验的时间、费用和风险,然后决定合适的样本量。请注意,此表并不直接回答 "我需要多少受试者?"的问题,而是回答 "如果我使用 N 个受试者,我能了解到哪些信息?"的相关问题。这种样本量计算方法是 Parker 和 Berman (1) 推荐的。
在某些情况下,这些结果可能会让你相信,用你所能使用的受试者数量是不可能找到你想知道的东西的。这可能很有帮助。在计划阶段就取消这样的实验,远比浪费时间和金钱去做一个没有足够检验力的徒劳实验要好得多。如果实验涉及任何临床风险或公款消费,进行这样的研究甚至会被认为是不道德的。
样本量大的一个好处是,你有更大的检验力来检测特定的效应量。等效地,在检验力不变的情况下,样本量越大,您就能检验出越小的效应量。但在可能的情况下选择较大样本量还有另一个原因。有了更大的样本,您就可以更好地评估数据的分布。从高斯分布或对数正态分布中取样的假设是否合理?有了更大的样本,就更容易评估
1. R. A. Parker and N. G. Berman, Sample Size:More than Calculations, Am.Statistician 57:166-170, 2003.