如果异常值检验确定一个或多个值为异常值,请回答以下问题:
如果“异常值”实际上属于输入错误,请纠正。总是有必要回到原始数据源,检查输入到Prism的异常值实际上是否是您从实验中获得的值。如果该值是计算的结果,请检查数学错误。
当然,当异常值完全不可能时,应从数据中移除该值。相关示例包括体重为负或年龄超过150岁。这些都是很明显的错误,在分析中留下错误的值会导致毫无意义的结果。
Grubbs和ROUT检验均假设所有值均从高斯分布中抽样得到,但一个(或几个)来自不同分布的异常值除外。如果基础分布并非高斯分布,则异常值检验的结果不可靠。特别需要 注意对数正态分布。如果数据从对数正态分布中抽样得到,您会发现一些很高的值,很容易误认为是异常值。删除这些值将造成错误。
如果每个值来自不同的动物或人类受试者,则识别异常值可能很重要。仅仅因为一个值与其他值未位于同一高斯分布中并不意味着将忽略该值。您可能已经发现基因的多态性。或者是一种新的临床综合症。在首先考虑该发现是否具有潜在科学意义之前,不要将数据作为异常值丢弃。
当某值不仅被异常值检验标记为“异常值”,而且在执行实验时还记录采用该值的问题时,从数据集中移除该值更为合理。
理想情况下,删除异常值不应该是特别决定。您应当遵循某种策略,并始终如一地应用该策略。
“屏蔽” 是一个涉及存在两个(或多个)异常值的问题,其可能使找到一个异常值变得更加困难。
如果您对以上所有问题的回答均为“否”,则有两种可能性:
•可疑值与其他值来自相同的高斯群体。您只是偶然从该分布的尾部之一收集一个值。
•可疑值来自与其他值不同的分布。也许归因于一项错误(例如,错误移液、电压尖峰、过滤器孔洞等)。
如果您知道这是第一种可能性,则您会在您的分析中保留该值。移除该值属于错误行为。
如果您知道这是第二种可能性,则您应当删除,因为在您的分析中包含一个错误的值会给出无效结果。
当然,问题是您永远无法确定这些可能性中哪一个正确。异常值检验无法百分之百解决该问题。理想情况下,您应该为如何处理这些数据创建一种实验室策略,并始终如一地遵循该策略。
如果您没有排除异常值的实验室政策,则建议如下:在存在和不存在可疑异常值的情况下,分析您的数据。如果两种方法的结果均相似,则您将获得明确结论。如果结果非常不同,则会卡住。如果在删除异常值时未遵循一致的策略,则仅当其有助于将数据推向您想要的结果时,您才有可能删除异常值。