几乎可以为根据数据样本计算的任何值计算置信区间,包括SD。
根据值样本计算SD非常简单。但SD的准确度如何?您可能碰巧获得紧密结合的数据,从而导致SD很低。或者您可能随机获得相比总群体更为分散的值,从而导致SD很高。您样本的SD不等于群体的SD,甚至与之相差甚远。
置信区间通常用于计算平均值。但置信区间的概念非常普遍,您可以将任何计算值的精度表示为95%置信区间(CI)。另一示例是回归最佳拟合值的置信区间(例如,斜率的置信区间)。
样本SD只是您根据数据样本计算的一个值。虽然并不经常这么做,但其确实有可能计算一个SD的CI。GraphPad Prism不进行此计算,但免费的GraphPad QuickCalc有效。
SD CI的解释非常简单。如果您假设数据是从高斯分布中随机独立抽样,则有95%的概率确定CI包含真正的群体SD。
SD的CI有多宽?当然,答案取决于样本量(n)。对于小样本,区间相当宽,如下表所示。
n SD的95% CI
2 0.45*SD - 31.9*SD
3 0.52*SD - 6.29*SD
5 0.60*SD - 2.87*SD
10 0.69*SD - 1.83*SD
25 0.78*SD - 1.39*SD
50 0.84*SD - 1.25*SD
100 0.88*SD - 1.16*SD
500 0.94*SD - 1.07*SD
1000 0.96*SD - 1.05*SD
数据:23、31、25、30、27
平均值: 27.2
SD: 3.35
根据五个值计算出的样本SD为3.35。但值抽样群体的真正SD可能大不相同。从表的n = 5行来看,95%置信区间从0.60*SD扩展到2.87*SD。因此,95%置信区间的范围为0.60*3.35到2.87*3.35,2.01到9.62。当您仅根据五个值计算SD时,SD的95%置信上限几乎是下限的五倍。
大多数人对小样本的SD定义如此之差的事实感到惊讶。随机抽样会对小数据集产生巨大影响,从而导致计算出的SD与真正的全体SD相差甚远。
请注意,置信区间并非围绕计算的SD对称分布。为什么?由于SD始终是正数,因此置信下限不能小于零。这意味着上置信区间通常在样本SD上方延伸,而下置信区间在样本SD下方延伸。使用小样本时,这种不对称性非常明显。
这些Excel方程计算SD的置信区间。n是样本量;95%置信度的α为0.05,99%置信度的α为0.01等:
下限:=SD*SQRT((n-1)/CHIINV((alpha/2),n-1))
下限:=SD*SQRT((n-1)/CHIINV(1-(alpha/2),n-1))
这些方程来自Sheskin出版物第197 - 198页(参考下文)。
David J. Sheskin, 《参数和非参数统计程序手册》,第四版,IBSN:1584888148。