Please enable JavaScript to view this site.

单样本SD与群体SD不同

根据值样本计算SD非常简单。但标准偏差有多准确?您可能碰巧获得紧密结合的数据,从而导致SD很低。或者,您可能碰巧获得的数据比整体群体离散得多,使得SD值较高。样本的SD可能不等于,甚至不接近群体的SD。

SD的95% CI

可用95%的置信区间(CI)来表示任何计算值的精度。虽然并不经常这么做,但其确实有可能计算一个SD的CI。我们将在下一部分详细讨论置信区间,其解释了平均值的CI。此处我们讨论的是SD的CI,两者完全不同。

SD CI的解释非常简单。您必须假定您的数据是随机数据,且单独高斯分布中抽样得到。从这一个样本中计算出SD及其CI,然后利用其推断整个群体的SD。您能够95%地确定SD的CI包含了真实的群体标准偏差。

SD的CI有多宽?当然,答案取决于样本量(N),如下表所示。

N

SD的95% CI

2

0.45*SD - 31.9*SD

3

0.52*SD - 6.29*SD

5

0.60*SD - 2.87*SD

10

0.69*SD - 1.83*SD

25

0.78*SD - 1.39*SD

50

0.84*SD - 1.25*SD

100

0.88*SD - 1.16*SD

500

0.94*SD - 1.07*SD

1000

0.96*SD - 1.05*SD

根据上图所示五个值计算的标准偏差为18.0。但值抽样群体的真正SD可能大不相同。由于N = 5,因此95%置信区间从10.8(0.60*18.0)扩展至51.7(2.87*18.0)。您仅根据五个值计算SD时,SD的95%置信上限几乎是下限的五倍。

大多数人对小样本的SD定义如此之差的事实感到惊讶。随机抽样会对小数据集产生巨大影响,从而导致计算出的SD与真正的全体SD相差甚远。

注意,置信区间具有非对称性。为什么?由于SD始终是正数,因此置信下限不能小于零。这意味着上置信区间通常在样本SD上方延伸,而下置信区间在样本SD下方延伸。使用小样本时,这种不对称性非常明显。

如果您希望自己计算这些置信区间,请使用这些Excel方程(N表示样本量;95%置信度下α为0.05,99%置信度下α为0.01,等等):

下限: = SD*SQRT((N - 1)/CHIINV((alpha/2),N - 1))

上限: = SD*SQRT((N - 1)/CHIINV(1 - (alpha/2),N - 1)

© 1995-2019 GraphPad Software, LLC. All rights reserved.