百分位数有助于给出个体在群体中的相对位置。百分位数本质上是规范化秩。第80百分位数是一个80%的值较低,20%的值较高的数值。百分位数以与数据相同的单位表示。
中值是第50百分位数。一半的值更高;一半的值更低。从低至高排列这些值。如果点数是奇数,则中间值是在中间的值。如果点数是偶数,则中间值是两个中间值的平均值。
四分位数将数据分为四组,每组包含相同数量的值。四分位数除以第25、50和75百分位数,亦称为第一、第二和第三四分位数。四分之一的值小于或等于第25百分位数。四分之三的值小于或等于第75百分位数。
第75百分位数与第25百分位数之间的差异称为四分位距。这是量化散布的有用方式。
计算除中间值以外的百分位数并不简单。无论您信不信,至少有八种方法可以计算百分位数。此处给出了不同方法的另一种解释(向下滚动至“绘图位置”)。
Prism通过首先评价以下表达式来计算百分位数值:
R = P *(n+1)/100
P是期望百分位数(四分位数的25或75),n是数据集中的值数量。结果是对应于百分位数值的秩。如果有68个值,则第25百分位数对应的秩等于:
0.25 * 69 = 17.25
Prism(从版本5开始)在第17和第18个值之间插入四分之一的距离。这是统计程序中最常用的方法。这是Hyndman和Fan(1)中的定义6。在使用该方法的情况下,任何点的百分位数是k/(n+1),其中k是秩(从1开始),n是样本量。这与Excel计算百分位数的方式不同,因此样本量较小时,由Prism和Excel计算的百分位数将不匹配。
小心极小数据集的百分位数。考虑本示例:六个值的第90百分位数是多少?使用上述公式得出R等于6.3。由于最大值的秩为6,因此实际上不可能计算第90百分位数。Prism将最大值报告为第90百分位数。如果您试图计算六个值的第10百分位数,则会出现类似问题。R等于0.7,但最低值的秩为1。Prism将最小值报告为第10百分位数。
请注意,如何计算中间值并无歧义。百分位数的所有定义均得出中间值的相同结果。
“五数概括法” 一词 用于描述五个值的列表:最小值、第25百分位数、中值、第75百分位数和最大值。这些值与在盒须图中绘制的值相同(触须延伸至最小值和最大值时;Prism提供了定义触须的其他方法)。
1.R.J.和Y. Fan,统计软件包中的样本分位数,《美国统计学家》50,361 - 365,1996