格拉布斯异常值检验和 ROUT 异常值检验都是基于这样的假设:除了潜在异常值之外,其他数据都是从高斯分布中采样的。
但如果基本分布不是高斯分布呢?那么异常值检验就会产生误导。一种常见的情况是从对数正态分布中采样。
下图显示了从对数正态分布中采样的四个数据集。

其中三个数据集似乎包含了异常值,事实上,格拉布斯的异常值检验也在其中三个数据集中发现了异常值。
但这些数据并不是从带有异常值的高斯分布中采样的。相反,它们是从对数正态性分布中采样的。将所有数值转换为对数,分布就变成了高斯分布:

异常值消失了。格拉布斯检验没有发现异常值。 极端点之所以看起来像是异常值,是因为极大值在对数正态分布中很常见,但在高斯分布中却很少见。如果没有意识到分布是对数正态性,异常值检验就会产生很大误导。