分析数据时,您有时会发现一个值与其他值相差甚远。这类值称为 “异常值”,该术语通常无严格定义。
遇到异常值时,您可能会试图将其从分析中删除。首先,问问您自己这些问题:
•输入计算机的值是否正确?如果数据输入有误,请修正。
•关于该值,试验是否存在问题?例如,如果您注意到一根试管中的样本看起来很有趣,您可使用它作为排除该试管中样本所产生的值的理由,而无需执行任何计算。
•异常值是否由生物多样性引起?如果每个值来自不同的人或动物,则异常值可能正确。这是一个异常值,不是因为试验错误,而是因为那个人的操作可能与其他人不同。这可能是您的数据中最令人兴奋的发现!
如果您对所有三个问题的回答均为“否”,则您存在两种可能。
•异常值是由于偶然因素造成。在此情况下,您应在分析中保留该值。该值与其他值来自相同的分布,因此应包括在内。
•异常值因一个错误造成:错误的移液、电压尖峰、过滤器中的孔洞等。由于在您的分析中包含错误值会使结果无效,故应删除。换言之,该值来自于不同于其他值的群体,且具有误导性。
当然,问题是您永远不能确定这些可能性中哪一个是正确的。
一些统计检验的设计使得结果不会因为一个或几个异常值的出现而有很大的改变。此类检验据称 稳健。您使用一个稳健方法时,就没有理由想要排除异常值。
大多数非参数检验会比较秩分布。这使得检验具有稳健性,因为最大的值具有最大的秩,但该值有多大并不重要。
其他检验对异常值较为稳健,因为未假设其服从高斯分布,而是假设异常值更常见的更广泛的分布(因此影响更小)。