Please enable JavaScript to view this site.

有关Kolmogorov - Smirnov检验的主要事实

双样本Kolmogorov - Smirnov检验是一种比较两个数据集(1,2)累积分布的非参数检验。

该检验是非参数检验。其不假设从高斯分布(或任何其他定义的分布)中选择数据抽样。

如果将所有值转换为对数、倒数或进行任何转换,结果不会改变。KS检验报告了两个累积分布之间的最大差异,并根据该差异和样本量计算出P值。变换会拉伸(即使选择一个奇怪的变换,甚至会重新排列)频率分布的X轴,但不能改变两个频率分布之间的最大距离。

将所有值转换成其秩也不会改变累积频率分布之间的最大差异(Lehmann,第35 - 36页,参考文献2)。因此,虽然检验分析的是实际数据,但其相当于秩分析。因此,该检验对异常值相当稳健(例如,Mann - Whitney检验)。

零假设是两组均从具有相同分布的群体中抽样得到。其检验是否存在任何违反零假设的情况 - 不同的中值、不同的方差或不同的分布。

由于相比于Mann - Whitney检验,其检验了更多零假设偏差,因此检测中值偏移的能力更小,但检测分布形状变化的能力更强(Lehmann,第39页)。

由于该检验不比较任何特定参数(即,平均值或中值),因此不报告任何置信区间。

如果结果(Y值)是分类结果(具有很多联系),不要使用Kolmogorov - Smirnov检验。仅对比率或区间数据(在此情况下联系很少)使用该检验。

单尾和双尾P值的概念只在您观察一个具有两个可能方向(即,两个平均值的差值)的结果时才有意义。两个累积分布在很多方面均不同,因此尾部概念并不合适。Prism所报告的P值本质上有许多尾部。一些文本称之为双尾P值。

解读P值

P值回答了该问题:

如果这两个样本均从相同群体随机抽样得到,则这两个累积频率分布如同观测一样相距遥远的概率是多少?更准确地说,Komogorov - Smirnov D统计量与观测量相同或更大的概率是多少?

如果P值很小,则得出结论:这两个组均从具有不同分布的群体抽样得到。群体在中值、变异性或分布形状方面可能有所不同。

绘制累积频率分布图

KS检验的工作原理是比较两个累积频率分布,但未绘制这些分布图。为此,返回数据表,点击“分析”并选择“频率分布分析”。选择您想要创建的累积分布,并将相对频率列成表格。

不要混淆KS正态检验

混淆双样本Kolmogorov - Smirnov检验(该检验比较两个组)与单样本Kolmogorov - Smirnov检验(又称“Kolmogorov - Smirnov拟合优度检验”)非常容易,后者可以检验一个分布是否与理论预期相差太多。

单样本检验最常用作正态检验,用于比较单个数据集的数据分布和高斯分布的预测。Prism作为列统计分析的一部分,执行该正态检验。

与Mann - Whitney检验的比较

另外,Mann - Whitney检验还是一种用于比较两个非配对组的非参数检验。Mann - Whitney检验的工作原理是从低到高排列所有值,并比较两个组数值的平均秩。

Prism计算P值的方法

首先,Prism会生成两个累积相对频率分布,然后查询这两个分布在其相距最远的点上的距离。Prism使用了Lehmann解释的方法(2)。该距离报告为 Kolmogorov - Smirnov D

P值基于累积频率分布之间的最大距离计算得到,考虑了两个组中的样本量。对于较大样本,使用了优异的近似值(2,3)。

当样本很小时,使用一种精确方法。当n1+n2值的n1值排列数小于60,000时(其中,n1和n2是两个样本量),Prism将其定义为平均值。因此,对这些配对组大小使用精确检验(括号中的两个数字是两个组中的数值数量):

(2,2),(2,3)...(2,346)

(3,3),(3,4)...(3,69)

(4,4),(4,5)...(4,32)

(5,5),(5,6)...(5,20)

(6,6),(6,7)...(6,15)

(7,7),(7,8)...(7,12)

(8,8),(8,9),(8,10)

(9,9)

Prism在其精确算法(内部开发)中说明了关系。Prism在两个组之间系统地混合实际数据(保持样本量)。所报告的P值是这些重新混合数据集的分数,其中通过重新混合数据集计算得到的D大于或等于通过实际数据计算得到的D。

参考文献

1.Kirkman,T.W.(1996)待使用的统计数据:Kolmogorov - Smirnov检验。(2010年2月10日访问)

2.Lehmann,E.(2006),非参数:基于秩的统计方法。ISBN:978-0387352121

3.WH Press等人,《数值算法》,第三版,剑桥出版社,ISBN:0521880688

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.