创建盒须图之前,请考虑小提琴图,作为替代方案。小提琴图是否更好!
创建盒须图
通过Prism,可以根据列表中输入值或者XY表或分组表中并排重复值的堆叠,创建盒须图。
方框
方框始终从第25个百分位数延伸至第75个百分位数。这些限值有时称为曲线图的铰链。令人惊讶的是,有多种方法可用于计算这些百分位数。Prism使用标准方法,但与Excel使用的方法不同。
方框中间的线表示中值。您无法选择不同的值,但Prism还允许您在平均值处加上“+”。
须线的位置
Prism提供了六种在盒须图中创建须线的方法:
▪最小到最大。须线向下延伸至最小值,便向上延伸至最大值。
▪图基。见以下详情。
▪第10-90个百分位数。须线下拉至第10个百分位数,上拉至第90个百分位数。须线下方和上方的点绘制为单独的点。
▪第5个和第95个百分位数
▪第2.5个和第97.5个百分位数
▪第1个和第99个百分位数
▪最小到最大,显示所有点。该方法绘制了下至最小值和上至最大值的须线,但也将每个单独的值绘制为图表上叠加的点。
其他选项
▪选择边框颜色和粗细,并用颜色填充方框。
▪将平均值绘制为“+”。
▪为方框选择一个填充模式,并选择设计(模式)和颜色。
关于盒须图的更多信息
Tukey法如何绘制须线和异常值
1.计算四分位数之间的距离(第25个与第75个百分位数之间的差值)。该距离称为IQR。
2.增加第75个百分位数与1.5倍IQR之和。如果该值大于(或等于)数据集中的最大值,则将上部须线延伸至最大值。否则,在最大值小于第75个百分位数与1.5倍IQR之和处停止上部须线,并将大于该值的任何值绘制为单独的点。
3.计算第25个百分位数减1.5倍IQR的差。如果该值小于数据集中的最小值,则将须线向下延伸至最小值。否则,在最小值大于第25个百分位数减1.5倍IQR之差处停止下部须线,并将大于该值的任何值绘制为单独的点。
关于Tukey盒形图的注释
▪为什么是1.5倍IQR?没有统计依据;Tukey就是这样决定的,他发明了盒须图。
▪使用Tukey法创建须线时,须线末端有时称为内围。
▪单独绘制的值有时称为异常值,但“异常值”由格拉布斯检验或一些其他异常值检验定义。从高斯分布来看,通过Tukey规则在采样数据中找到一个或多个“异常值”的可能性取决于样本量。
▪如果每组仅输入三个值(n=3),则Prism将绘制中值和范围。Prism不会绘制百分位数,并将忽略您对须线绘制方式的选择。
▪使用Tukey的方法,须线始终在与样本中一个值匹配的值处结束。因此,两个须线通常不一样长。
▪术语“盒形图”和“盒须图”经常互换使用,但盒形图最初用于描述带有Tukey须线(围栏)的图,而盒须图用于描述须线向下延伸至最小值,向上延伸至最大值的图。
五数概括法
“五数概括法” 这一术语 用于描述五个值的列表:最小值、第25个百分位数、中值、第75个百分位数和最大值。须线延伸至最小值和最大值时,这些值与盒须图中绘制的值相同。
“异常值” 术语
“异常值” 这一术语 具有很多定义。盒须图须线以外的单个点有时称为异常值,但该定义与格拉布斯或其他异常值检验使用的定义不匹配。
如何通过输入最小值、最大值、中值、第25个和第75个百分位数,而非输入原始数据,创建一张盒须图
通常,Prism会根据原始数据创建一张盒须图。您需要输入一堆值,Prism会计算范围和百分位数以生成盒须图。
如果您想直接输入最小值、第25个百分位数、中值、第75个百分位数和最大值,则您需要一点小技巧。Prism不会知道您输入了这些值,但会使图表看起来像您输入了原始数据一样。如果您只输入这五个值,则Prism将正确计算最小值、最大值和中值,但第25个和第75个百分位数的计算将不正确。
这里有一个窍门::输入中值三次,而非一次,并且同时输入最小值、最大值以及第25个和第75个百分位数。对于每个组,在一列的不同行上输入七个值(顺序无关紧要。)
▪最小值
▪第25个百分位数
▪中值
▪中值
▪中值
▪第75个百分位数
▪最大值
不能“告诉”Prism这些值不是原始数据,因此Prism“认为”它们是原始数据,根据这七个值计算最小值、最大值、中值和四分位数,并绘制与输入值完全匹配的计算值。如果您使用这种变通方法根据汇总数据创建一张盒须图,则将平均值绘制为a+的选择不起作用。Prism将根据您输入的值计算平均值,该平均值不太可能等于数据的实际平均值。