许多统计书籍在开始时都会定义您可能要分析的各类变异性变量。这种方法由 S. Stevens 提出,于 1946 年出版。
分类变量也叫名义变量,是指相互排斥但不是有序的类别。例如,您的研究可能会比较五种不同的基因型。如果愿意,您可以用数字对这五种基因型进行编码,但顺序是任意的,任何计算(例如计算平均值)都将毫无意义。
顺序变量,是指顺序很重要,但数值之间的差异并不重要的变量。本示例中,您可能会要求患者用 1 到 10 分来表示他们所感受到的疼痛程度。7 分意味着比 5 分更疼,也比 3 分更疼。但 7 分和 5 分之间的差异可能与 5 分和 3 分之间的差异不同。这些数值只是表达了一种顺序。另一个本示例是电影评分,从 * 到 *****。
区间变量是指两个值之间的差值是有意义的。温度 100 度和 90 度之间的差值与 90 度和 80 度之间的差值相同。
比率变量,具有区间变量的所有特性,但也有 0.0 的明确定义。当变量等于 0.0 时,就没有这个变量了。身高、体重、酶活性等变量都属于比率变量。以华氏度或摄氏度表示的温度不是比率变量。在这两个量表中,温度为 0.0 并不意味着 "没有热量"。然而,以开尔文为单位的温度是一个比率变量,因为 0.0 开尔文确实意味着 "无热"。另一个反例是 pH 值。它不是一个比率变量,因为 pH=0 只是意味着 1 摩尔的 H+,而摩尔的定义是相当随意的。pH 值为 0.0 并不意味着 "无酸性"(恰恰相反!)。在处理比率变量而非区间变量时,可以查看两个测量值的比值。4 克的砝码是 2 克砝码的两倍,因为砝码是比率变量。100 摄氏度的温度不是 50 摄氏度的两倍,因为温度 C 不是比率变量。pH 值为 3 的酸性不是 pH 值为 6 的两倍,因为 pH 值不是比率变量。
可以计算.... |
标称 |
序数 |
区间 |
比率 |
频率分布 |
是 |
是 |
是 |
是 |
中位数和百分位数 |
是 |
是 |
是 |
是 |
和或差 |
是 |
是 |
是 |
是 |
平均数、标准偏差、平均数的标准误差 |
无 |
是 |
是 |
是 |
比率或变异系数 |
无 |
无 |
是 |
是 |
如果您要参加统计检验,这很重要,因为这种概念很容易检验。
对数据分析重要吗?这些概念大多非常明显,但给不同类型的变量取名有助于避免错误,比如取一组邮政编码(zip)的平均值,或取两个 pH 值的比率。除此之外,给不同类型的变量贴标签其实并不能真正帮助你规划分析或解读结果。