只有当数据分析中的每一个选择都完全按照计划进行,并作为实验设计的一部分记录在案时,才能对统计结果进行表面解读。在一些研究文件中,这一规则通常被打破。 相反,分析工作往往如下所示:

收集并分析一些数据。如果结果在统计学上并不显著,但显示出与你预期方向的差异或趋势,则再收集一些数据并重新分析。或者尝试不同的方法来分析数据:去除一些异常值;转换成对数;尝试非参数检验;通过正态性检验(比如除以每只动物的体重)来重新定义结果;使用一种方法来比较一个变量,同时调整另一个变量的差异;可能性不胜枚举。 不断尝试,直到获得统计学上显著的结果,或者直到耗尽金钱、时间或好奇心。
不能从表面价值来解读以这种方式收集的数据所得出的结果。即使真的没有差异(或没有影响),发现 "统计学显著 "结果的几率也超过 5%。问题在于,只有当 P 值大于 0.05 时,你才会选择收集更多的数据(或对数据进行不同的分析),这就会带来偏差。如果第一次分析的 P 值小于 0.05,那么在收集更多数据或使用替代分析后,P 值可能会大于 0.05。但如果在第一次 P 值大于 0.05 时才收集更多数据或尝试不同的数据分析策略,你就永远不会看到这种情况。
P-hacking 一词是由 Simmons 等人(1)创造的,他们还使用了 "研究者自由度过多"这一短语。这是一个笼统的术语,包含动态样本量收集、HARKing 等。P-hacking 有三种:
•第一种 P-hacking 涉及改变分析的实际值。本示例包括自变量样本量选择、切换到替代对照组(如果您不喜欢第一个结果,而您的实验涉及两个或更多对照组)、尝试在多元回归中包含各种独立变量组合(无论选择是手动还是自动)、尝试有异常值和无异常值的分析,以及分析数据的各种子组。
•第二种 P-hacking 是用不同的统计检验对单一数据集进行重新分析。本示例:尝试参数检验和非参数检验。分析原始数据,然后尝试分析数据的对数。
•第三种 P-hacking 是岔路花园 (2)。这种情况发生在研究人员根据假设和数据进行了合理的分析,但如果数据结果不同,他们也会进行其他同样合理的分析。
探索数据是产生假设和做出初步结论的一种非常有用的方法。但是,所有这些分析都需要明确标注,然后用新数据重新检验。
参考文献
1.Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011).假阳性心理学:数据收集和分析中未披露的灵活性允许将任何东西都说成是有意义的。心理科学》,22(11),1359-1366。
2.Gelman, A., & Loken, E. (2013)。岔路花园:为什么多重比较可能是个问题,即使没有 "钓鱼考察 "或 "P-黑客",研究假设也是提前提出的。截至 2016 年 1 月未发表