Grubbs和ROUT异常值检验均以下述假设为基础:除潜在异常值外,数据均为从高斯分布中抽样得到。
但如果基本分布并非呈高斯分布,那么异常值检验具有误导性。常见情况从对数正态分布中抽样得到。
下图显示从对数正态分布中抽样的四个数据集。
其中三个数据集似乎包含一个异常值,且Grubbs异常值检验确实在其中三个数据集中发现异常值。
但这些数据并非从具有异常值的高斯分布中抽样。相反,其是从对数正态分布中抽样,且将所有值转换成其对数,分布也变为高斯分布:
明显异常值消失。Grubbs检验未发现异常值。极值点只是看起来像是异常值,因为在对数正态分布中非常大的值很常见,但在高斯分布中很少见。如果未意识到分布是对数正态分布,那么异常值检验将非常具有误导性。