相关系数 r 的范围是-1 到 +1。非参数斯皮尔曼相关系数(缩写为 rs)的范围与此相同。后一个值有时用希腊字母ρ(rho)表示。
r 值(或 rs) |
解读 |
1.0 |
完全相关 |
0 至 1 |
两个变异性趋于同增或同减。 |
0.0 |
两个变量完全没有一起变异性。 |
-1至0 |
一个变量增加,另一个变量减少。 |
-1.0 |
完全负相关或反相关。 |
•X 变量的变化导致 Y 变量值的变化。
•Y 变量的变化导致 X 变量值的变化。
•另一个变量的变异性同时影响 X 和 Y。
•X 和 Y 其实根本不相关,你只是碰巧观察到了如此强烈的相关性。P 值量化了发生这种情况的可能性。
关于相关系数的说明:
•如果选择斯皮尔曼非参数相关性,Prism 会通过近似计算斯皮尔曼相关系数的置信区间。根据 Zar(《生物统计分析》)的说法,只有当 n>10 时才能使用该近似值。因此,当 n 较小时,Prism 不会报告 Spearman 相关系数的置信区间。
•如果要求 Prism 计算相关矩阵(计算每对变量的相关系数),它会计算每对变量的简单相关系数,而不考虑其他变量。它不会计算多元回归或部分回归系数。
•如果所有 Y 值都相同,则无法计算相关系数(参数或非参数),Prism 会报告 "水平线"。相关性是指 X 和 Y 的变化程度。如果 Y 完全没有变化,这个问题就没有意义,相关性计算也就无法进行(除以零)。
•如果所有 X 值都相同,则无法计算相关系数,Prism 将报告 "垂直线"。
解读 r 值的最佳方法或许是将其平方来计算r2。统计学家称这一数值为决定系数,但科学家称其为 "r 平方"。它是一个范围从 0 到 1 的值,是两个变量中 "共享 "的变异性的分数。本示例中,如果 r2=0.59,那么 X 变量中 59% 的方差可以用 Y 变量来解释;同样,Y 变量中 59% 的方差也可以用 X 变量来解释。
Prism 只能根据皮尔森相关系数计算r2值。用非参数斯皮尔曼相关系数计算 r2 是不合适的。
P 值回答了这个问题:
如果 X 和 Y 之间总体上真的没有相关性,那么随机抽样导致相关系数与本实验中观察到的相关系数一样远离零(或更远)的几率有多大?
如果 P 值很小,则可以否定相关性是随机抽样造成的这一观点。
如果 P 值很大,那么数据并没有给你任何理由来断定相关性是真实的。这并不等于说根本不存在相关性。你只是没有令人信服的证据证明相关性是真实的,而不是偶然的。看看 r 的置信区间,它将从负相关延伸到正相关。如果整个置信区间都是接近零的值,你会认为这在生物学上是微不足道的,那么你就有强有力的证据证明,要么人群中不存在相关性,要么存在微弱的(生物学上微不足道的)相关性。另一方面,如果置信区间包含了你认为在生物学上很重要的相关系数,那么你就无法从这个实验中得出任何有力的结论。要得出有力的结论,您需要更大实验的数据。
如果您在列表中输入数据并请求相关性矩阵,Prism 将报告每列与其他每列的相关性 P 值。这些 P 值不包括多重比较的任何校正。
Prism 总是报告双尾(双面)P 值。
对于 17 个或更少的成对值,Prism 会计算非参数(Spearman)相关性的精确 P 值,查看数据的所有可能排列。精确计算可以轻松处理并列关系。对于 18 个或更多的成对值,Prism 会计算非参数相关性的近似 P 值)。这个近似值是标准值。它首先根据 Rs 计算 t 比值,然后根据该比值计算 P。
如果斯皮尔曼相关系数的精确 P 值计算被中断(本示例中按 "ESC "键取消计算),Prism 将报告剩余相关系数的近似 P 值。在分析结果中,Prism 将报告 Spearman 相关系数的每个计算 P 值是精确的还是近似的。
Prism 5 在不存在并列关系的情况下,使用大于 13 对的临界值进行近似计算,在存在并列关系的情况下,始终使用近似值,而现在 Prism 使用大于 17 对的临界值。因此,如果数据集在 14 到 17 对之间,或者数据集少于 17 对但有并列关系,Prism 5 会报告不同(不太准确)的结果。
Prism 7 修正了Prism 6(最高 6.05 和 6.0f,但不包括早期版本)中的一个错误,该错误导致在 Rs 为负值、存在并列值且精确计算 P 值时,有时会出现不正确的 P 值。