如果异常值检验确定一个或多个值为异常值,请自问以下问题:
如果 "异常值"实际上是打错了,那就纠正它。最好回到原始数据源,检查一下输入 Prism 的异常值是否实际是您从实验中获得的值。如果数值是计算的结果,请检查是否有数学错误。
当然,当异常值完全不可能出现时,您应该从数据中删除异常值。本示例包括负体重或超过 150 岁的(人)年龄。这些显然是错误的,将错误的值留在分析中会导致无意义的结果。
格拉布斯检验和 ROUT 检验都假定所有值都是从高斯分布中采样的,可能有一个(或几个)来自不同分布的异常值除外。如果基本分布不是高斯分布,那么异常值检验的结果就不可靠。尤其要提防对数正态性分布。如果数据是从对数正态分布中采样的,那么你期望值会发现一些非常高的值,这些值很容易被误认为异常值。删除这些值将是一个错误。
如果每个值都来自不同的动物或人,那么识别异常值可能很重要。一个值与其他值不属于同一高斯分布,并不意味着它应该被忽略。您可能发现了一个基因的多态性。或者是一种新的临床综合征。在首先思考该发现是否具有潜在的科学意义之前,不要将数据作为异常值丢弃。
如果一个值不仅被异常值检验标记为 "异常值",而且您在实验时还记录了该值存在的问题,那么从数据集中删除该值就更容易自圆其说了。
理想情况下,删除异常值不应该是一个临时决定。您应该遵循一项政策,并始终如一地执行该政策。
掩盖问题是指两个(或更多)异常值的存在会使找到一个异常值变得更加困难。
如果您对上述所有问题的回答都是否定的,那么有两种可能性:
•可疑值与其他值来自同一个高斯群体。你只是碰巧从该分布的一个尾部收集了一个值。
•可疑值来自与其他值不同的分布。也许是由于错误造成的,例如移液不当、电压尖峰、过滤器上的孔洞等。
如果您知道第一种可能性,您就会在分析中保留该值。将其删除将是一个错误。
如果您知道是第二种情况,您就会将其删除,因为在分析中加入一个错误的值会导致结果无效。
当然,问题在于你永远无法确定哪种可能性是正确的。异常值检验无法肯定地回答这个问题。理想情况下,您应该为如何处理此类数据制定实验室政策,并始终如一地遵守。
如果您没有关于清除异常值的实验室政策,建议如下:同时分析有异常值和没有异常值的数据。如果两种方法的结果相似,那么你就有了明确的结论。如果结果大相径庭,那么你就陷入困境了。如果对何时删除异常值没有一致的政策,那么您很可能只会在有助于将数据推向您想要的结果时才删除异常值。