Navigation: 统计学原理 > 异常值
建议:注意手动识别异常值
常见做法是以直观方式检查数据,手动去除异常值。该方法的问题在于其随心所欲性。保留有助于数据得到所需结论的点,并删除阻止数据得到所需结论的点,这十分简单。
上文的图表通过模拟创建。所有十个数据集中的值均从高斯分布中随机抽样得到,平均值为50,SD为15。但大多数人会得到结论,数据集A中的最低值是一个异常值。也许还有数据集j中的高值。大多数人无法理解随机变化,而且往往经常发现“异常值”。