百分位数有助于说明个人在群体中的相对地位。百分位数本质上是标准化的等级。第 80 个百分位数是指 80% 的数值较低,20% 的数值较高。百分位数的单位与数据的单位相同。
中位数是第 50 个百分位数。一半的数值较高,一半的数值较低。将数值从低到高排列。如果点数是几率,中位数就是中间的那个。如果点数为偶数,中位数就是中间两个值的平均值。
四分位数将数据分为四组,每组包含相同数量的值。四分位数按第 25、50 和 75 百分位数划分,也称为第一、第二和第三四分位数。四分之一的数值小于或等于第 25 个百分位数。四分之三的数值小于或等于第 75 个百分位数。
第 75 个百分位数与第 25 个百分位数之间的差值称为四分位数间距。这是量化散点的有用方法。
计算中位数以外的百分位数并不简单。信不信由你,计算百分位数至少有八种不同的方法。下面是对不同方法的另一种解释(向下滚动到 "绘制位置")。
Prism 计算百分位数值时,首先要对以下表达式进行求值:
R = P * (n + 1)/100
P 是所需的百分位数(四分位数为 25 或 75),n 是数据集中的数值个数。结果就是与百分位值相对应的等级。如果有 68 个值,那么第 25 个百分位数对应的等级等于
0.25 * 69 = 17.25
Prism(从第 5 版开始)在第 17 值和第 18 值之间插入四分之一的插值。这是统计程序中最常用的方法。这是 Hyndman 和 Fan (1) 中的定义 6。使用这种方法,任何点的百分位数都是 k/(n+1),其中 k 是等级(从 1 开始),n 是样本量。 这与 Excel 计算百分位数的方法不同,因此当样本量较小时,Prism 和 Excel 计算的百分位数将不一致。
小心微小数据集的百分位数。请看本例:六个值的第 90 个百分位数是多少?使用上面的公式,R 等于 6.3。由于最大值的秩为 6,因此无法计算第 90 百分位数。Prism 将最大值报告为第 90 个百分位数。如果尝试计算 6 个值的第 10 个百分位数,也会出现类似的问题。R 等于 0.7,但最小值的等级为 1,Prism 将最小值报告为第 10 个百分位数。
请注意,计算中位数的方法并不模糊。所有百分位数的定义都会导致相同的中位数结果。
五位数汇总一词用于描述包含五个值的列表:最小值、第 25 个百分位数、中位数、第 75 个百分位数和最大值。这些值与盒须图中绘制的值相同(当须扩展到最小值和最大值时;Prism 提供了定义须的其他方法)。
1.R.J. and Y. Fan,Sample quantiles in statisticalpackages, The American Statistician, 50: 361-365, 1996