弗里德曼检验是一种非参数检验,用于比较三个或更多匹配组或配对组。Friedman 检验首先将每个配对组(每行)的值从低到高排序。每一行单独排序。然后对每组(列)的秩和进行求和。如果总和相差很大,P 值就会很小。Prism 会报告弗里德曼统计量的值,该值是根据秩和与样本量计算得出的。该值有多种名称。有些程序和文本称其为 Q 或 T1 或 FM。还有人称它为卡方检验,因为它的分布近似卡方,所以卡方分布被用来计算 P 值。
使用配对检验的全部意义在于控制受试者之间的实验变异性,从而提高检验力。你在实验中没有控制的一些因素会增加(或减少)受试者的所有测量值。由于 Friedman 检验对每一行中的值进行了排序,因此它不会受到同样影响一行中所有值的变异性来源的影响(因为该因素不会改变行内的排序)。
P 值回答了这个问题:如果不同的处理(列)真的完全相同,那么随机抽样导致的秩和与本实验中观察到的秩和相差那么远(或更远)的几率有多大?
如果 P 值很小,则可以否定列之间的所有差异都是随机抽样造成的这一观点,而得出至少有一种处理(列)与其他处理(列)不同的结论。然后查看后检验结果,看看哪些组与其他哪些组不同。
如果 P 值很大,那么数据并不能让您得出总体中位数不同的结论。这并不等于说中位数是相同的。你只是没有令人信服的证据证明它们是不同的。如果样本较少,Friedman 检验就没有什么检验力。
如果表格较小,Prism 会进行精确计算。如果表格较大,Prism 会使用标准近似值。要决定何时使用近似方法,Prism 会计算 (T!)S(T 的阶乘到 S 的幂次),其中 T 是处理数(数据集),S 是受试者数(行)。当该值超过109 时,Prism 会使用近似方法。例如,如果有 3 个处理和 12 行,那么 (T!)S等于612,等于 2.2 ×109,因此 Prism 使用近似方法。
近似方法有时也称为高斯近似。高斯一词与秩和的分布有关,并不意味着你的数据需要从高斯分布中采样。对于中等样本量的数据,Prism 可能需要很长时间才能计算出精确的 P 值。如果近似 P 值能满足您的需要,您可以中断计算。
精确法的工作原理是检查所有可能的数值重新排列,将每个数值保持在同一行(同一受试者,因为这是重复测量设计),但允许列(处理)分配不同。
如果两个或两个以上的值(在同一行中)具有相同的值,以前版本的 Prism 无法计算精确的 P 值,因此即使样本很小,Prism 也能计算出近似 P 值。Prism 6 及以后的版本即使在出现并列的情况下也能计算精确 P 值,因此只有在样本量相当大时才使用近似 P 值,如上文所述。这意味着,对于某些数据集,Prism 会报告与旧版本不同的结果。
继 Friedman 检验之后,Prism 还可以执行邓恩事后检验。详情请参阅 PWS-Kent 出版公司 1990 年出版的 WW Daniel 的《应用非参数统计》(Applied Nonparametric Statistics)或 S Siegel 和 NJ Castellan 于 1988 年出版的《行为科学的非参数统计》(Nonparametric Statistics for Behavioral Sciences)。原始参考文献为 O.J. Dunn,Technometrics,5:241-252,1964 年。请注意,有些书籍和程序只是把这种检验称为 Friedman 检验后的后检验,并没有给出确切的名称。
邓恩后检验将两列之间秩和的差异与预期平均差异(基于组数及其规模)进行比较。对于每一对列,Prism 报告的 P 值为 >0.05、<0.05、<0.01 或 <0.001。P 值的计算要考虑到进行比较的次数。如果零假设成立(所有数据都是从分布完全相同的人群中随机抽样得到的,因此组间的所有差异都是随机抽样造成的),那么至少有一个后检验的 P<0.05 的概率为 5%。这 5%的概率并不适用于每次比较,而是适用于整个比较族。