Please enable JavaScript to view this site.

如何进行

Mann-Whitney检验也叫Wilcoxon秩和检验,是一种非参数检验,用于比较两个非配对组。要进行 Mann-Whitney 检验,Prism 首先会将所有值从低到高排序,而不考虑每个值属于哪个组。最小的数值的等级为 1,最大的数值的等级为n,其中n是两组数值的总数。然后,Prism 对每组中的等级求平均值,并报告两个平均值。如果两组中等级的平均值相差很大,P 值就会很小。

P 值

只有知道所检验的零假设,才能解读 P 值。对于Mann-Whitney检验来说,零假设有点难理解。零假设是两组的分布相同,因此从一个群体中随机选取的观察值超过从另一个群体中随机选取的观察值的概率为 50%。

P 值回答了这个问题:

如果两组是从分布完全相同的人群中随机抽样,那么随机抽样导致平均值等级相差(或更大)的概率是多少?

在大多数情况下(包括出现并列时),Prism 会计算出精确的 P 值(2)。如果您的样本较大(较小的一组有 100 多个值),它就会根据高斯近似法计算出近似 P 值。这里的高斯与秩和的分布有关,并不意味着您的数据必须服从高斯分布。对于大样本来说,该近似值相当精确,而且是标准值(所有统计程序都会使用)。

请注意,Prism 计算精确 P 值的速度比旧版本快得多,因此在计算中等大小的数据集时,Prism 5 会使用近似方法。当最小样本量小于或等于 100 时,它就会计算精确 P 值,否则就会计算近似 P 值(对于如此大的样本量,近似 P 值是非常好的)。

如果 P 值较小,则可以拒绝 "差异是随机抽样造成的"的零假设,而得出 "种群是不同的"结论。

如果 P 值很大,则数据没有给你任何理由拒绝零假设。这并不等于说两个种群是相同的。你只是没有令人信服的证据证明它们是不同的。如果样本较小,Mann-Whitney 检验就没有什么检验。事实上,如果样本量为 7 个或更少,无论两组差异有多大,Mann-Whitney 检验的 P 值总是大于 0.05。

Mann-Whitney U 和 U'

Prism 会报告 Mann-Whitney U 值,以便您将计算结果与其他程序或文本进行比较。要计算 U 值,请从 A 组中选取一个值,再从 B 组中选取一个值。记录哪个组的值较大。重复计算两组中的所有数值。 合计 A 组中的值大于 B 组中的值的次数,以及 B 组中的值大于 A 组中的值的次数。

计算 U 时,比较次数等于 A 组中数值的次数乘以 B 组中数值的次数的乘积。如果零假设成立,那么 U 的值应该是该值的一半左右。如果 U 值远小于该值,P 值就会很小。U 的最小值可能是零。最大的可能值是 A 组数值数乘以 B 组数值数的乘积的一半。

有些程序也会报告 U',但 Prism 不会。它可以很容易地计算为 n1*n2 - U,其中 n1 和 n2 是两个样本量,U 由 Prism 报告。Prism 将 U 定义为两个值中较小的一个,因此 U' 是两个值中较大的一个。有些程序会根据先输入的数据集来定义 U 和 U',因此在某些分析中可能会颠倒 U 和 U' 的定义。

中位数的差异及其置信区间

Mann-Whitney检验比较两组中等级的分布。如果假设两个群体的分布形状相同(不一定是高斯分布),则可以将其视为两个中位数的比较。请注意,如果不做这一假设,Mann-Whitney 检验就不能比较中位数。

只有选中比较中位数的复选框(在选项选项卡上),Prism 才会报告中位数之间的差异。它以两种方式报告差异。一种是显而易见的,即用一组的中位数减去另一组的中位数。另一种方法是计算霍奇斯-莱曼估计值 (4)。Prism 系统计算第一组中每个值与第二组中每个值之间的差值。霍奇斯-莱曼估计值就是这组差值的中位数。

Prism 使用 Sheskin (1) 第 521-524 页和Klotz(3) 第 312-313 页解释的方法计算差值的置信区间。该方法基于霍奇斯-莱曼方法。

由于非参数检验使用的是等级,因此通常不可能得到精确到 95% 的置信区间。Prism 会找到一个接近的置信水平,并报告置信水平。本示例中,当你要求 95% 的置信区间时,可能会得到 96.2% 的置信区间。Prism 会报告它所使用的置信水平,该置信水平尽可能接近您所要求的置信水平。报告置信区间时,既可以报告精确的置信水平("96.2%"),也可以只报告您要求的置信水平("95%")。我认为后一种方法更常用。

当较小样本的值为 100 或更少时,Prism 会计算精确置信区间,否则会计算近似置信区间。对于这么大的样本,这个近似值是相当准确的。

Mann-Whitney检验中的并列值

Mann-Whitney检验是为连续测量的数据而开发的。因此,您期望测量的每个值都是唯一的。但偶尔也会出现两个或多个值相同的情况。当 Mann-Whitney 计算将数值转换为等级时,这些数值会因等级相同而并列,因此它们都会被分配为并列的两个(或多个)等级的平均值。

Prism 在计算 U(或秩和;二者等价)时使用标准方法修正并列。

遗憾的是,当出现并列时,没有一种标准方法可以从这些统计量中得到 P 值。当较小样本的值为 100 或更少时,Prism 会计算精确的 P 值,即使出现并列也不例外(2)。它以表格形式列出了将数据洗成实际使用的样本量的两组的每一种可能方法,并计算出在这些洗过的数据集中,平均值之间的差异与实际观察到的差异一样大或更大的部分。当样本较大时(较小的组有超过 100 个值),Prism 使用近似方法,将 U 或秩和转换为 Z 值,然后在高斯分布上查找该值,得到 P 值。

为什么 Prism 6 及以后版本报告的结果与以前版本不同

Prism 6 及以后版本报告的结果与以前版本不同有两个原因:

精确 P 值与近似 P 值。当样本较小时,Prism 计算精确 P 值。当样本较大时,Prism 会计算近似 P 值。这将在结果中报告。Prism 6 计算精确 P 值的速度要快(快得多!),因此在样本大得多的情况下也能计算精确 P 值。只要较小样本组的检验值少于 100,它就会进行精确检验。

如何处理并列关系?如果两个值完全相同,则它们的等级相同。与大多数程序不同,Prism 6 即使在并列的情况下也会计算精确 P 值。Prism 5 和早期版本总是计算近似 P 值,不同版本使用不同的近似值。详细信息。

参考资料

1.DJ Sheskin,《参数和非参数统计程序手册》,第 4 版,2007 年,ISBN=1584888148。

2.Ying Kuen Cheung and Jerome H. Klotz,The Mann-Whitney Wilcoxon distribution using linked lists, Statistical Sinica 7:805-813, 1997.

3.JH Klotz,《统计学的计算方法》,2006 年,https://www.mimuw.edu.pl/~pokar/StatystykaI/Literatura/KlotzBook.pdf

4.L Hodges and EL Lehmann, "Estimates of location based on rank tests", Annals of mathematical statistics.34: 598-611, 1963.

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.