统计学家:"哦,您已经计算出 P 值了?"
外科医生:"是的,我使用了多项式逻辑回归。"
统计学家:"真的吗?你是怎么想出来的?"
外科医生:"嗯,我在 SPSS 的下拉菜单中尝试了每种分析,最后得出的 P 值最小。"
要使统计分析具有可解读的表面价值,以下三点陈述必须是真实的:
•所有分析都是按计划进行的。
•所有计划分析都按计划进行,然后报告。
•在解读结果时要考虑到所有的分析。
如下所述,这些简单而合理的规则通常在很多方面被违反。
在分析数据之前,需要做出一些决定。哪些值因为过高或过低而被认为是错误的,因此应该删除?是否以及如何进行归一化处理?是否以及如何转换数据?
要正确解读 P 值,必须事先设定实验方案。通常这意味着选择样本量、收集数据,然后进行分析。
但如果结果在统计学上不太显著怎么办?很有可能多做几次实验(或增加几个受试者),然后用更大的样本量再次分析数据。如果结果仍然不 "显著",那就再多做几次实验(或增加几个受试者),然后再重新分析一次。
用这种方法分析数据,就无法解读结果。不应该使用这种非正式的顺序方法。
如果 "无差异"的零假设确实成立,那么使用这种非正式的序列方法得到 "统计学显著 "结果的几率远远高于 5%。事实上,如果采用这种方法的时间足够长,那么即使零假设为真,每个实验最终都会得出 "有意义"的结论。当然,"足够长的时间"可能确实很长,会超过你的预算甚至你的寿命。
问题在于,当实验结果不 "显著"时,实验继续进行;当实验结果 "显著"时,实验停止。如果实验在达到 "显著"后继续进行,那么增加更多的数据可能会得出 "不显著"的结论。但你永远不会知道这一点,因为一旦达到 "显著",实验就会终止。如果你在不喜欢实验结果时继续运行实验,而在喜欢实验结果时却停止实验,那么实验结果就无法解读了。
统计学家已经开发出严格的方法来处理序列数据分析。这些方法使用更严格的标准来定义 "显著性",以考虑到顺序分析。如果没有这些特殊方法,除非事先设定样本量,否则无法解读结果
分析多个亚组数据是多重比较的一种形式。当一种治疗方法对某些亚组有效而对其他亚组无效时,对亚组的分析就成了多重比较的一种形式,很容易上当受骗。
Lee 和同事的一项模拟研究就指出了这个问题。他们假装比较两种冠状动脉疾病 "治疗 "后的存活率。他们研究了一组真正的冠心病患者,并随机将他们分为两组。在真实的研究中,他们会给两组患者不同的治疗方法,然后比较存活率。在这项模拟研究中,他们对受试者进行了相同的治疗,但在分析数据时,却把随机分成的两组当作实际代表了两种不同的治疗方法。不出所料,两组患者的存活率毫无差别(2)。
随后,他们又根据患者是一条、两条还是三条冠状动脉有病变,以及心室收缩是否正常,将患者分为六组。由于这些变异性预计会影响患者的存活率,因此有必要分别评估这六个亚组对 "治疗"的反应。他们发现其中五个亚组没有实质性差异,但在病情最严重的患者中却发现了惊人的结果。同时伴有心室收缩功能受损的三血管疾病患者在 B 治疗方案下的生存率远高于 A 治疗方案。两种生存曲线的差异在统计学上显著,P 值小于 0.025。
如果这是一项真实的研究,那么我们很容易得出结论:对于病情最严重的患者来说,治疗 B 更有优势,并在未来向这些患者推荐治疗 B。但这不是一项真正的研究,两种 "治疗"只是随机分配病人。两种治疗方法完全相同,因此观察到的差异绝对是偶然造成的。
作者在六次比较中发现了一个较低的 P 值,这并不奇怪。即使所有零假设都成立,六个独立比较中也有一个 P 值小于 0.05 的概率为 26%。
如果事先确定了所有的分组比较,就有可能对许多比较进行校正--可以作为分析的一部分,也可以在解读结果时进行非正式校正。但是,如果不事先确定这种分组分析,就会成为一种 "数据折磨"。
2000 年,政府间气候变化专门委员会对未来气候进行了预测。皮尔克提出了一个看似简单明了的问题:在接下来的七年里,这些预测的准确性如何?要认真评估全球变暖的预测,这个时间还不够长,但这是必要的第一步。事实证明,回答这个问题是不可能的。问题在于,报告中包含了大量预测,而且没有说明应该使用哪些气候数据来源。预测成真了吗?答案依赖于选择哪种预测进行检验,以及用哪种数据集进行检验--"樱桃挑选者的盛宴"(3)
只有当预测明确说明了预测的内容和发生时间时,才能评估预测或诊断的准确性。
在比较两个组别时,必须将组别定义为研究设计的一部分。如果组别是由数据定义的,那么很多比较都是隐含进行的,最终结果无法解释。
奥斯汀和戈德瓦瑟就证明了这个问题(4)。他们研究了加拿大安大略省十二个以星座(基于生日)定义的患者组别中心力衰竭住院的发生率。双鱼座出生的人恰好是心力衰竭发病率最高的。然后,他们做了一个简单的统计检验,将双鱼座出生者的心力衰竭发病率与其他所有星座(其他 11 个星座合并为一组)出生者的心力衰竭发病率进行比较。从表面价值来看,这种比较表明,发病率的差异不太可能是偶然造成的(P 值为 0.026)。双鱼座人心力衰竭的发病率比其他 11 个星座的人高,"统计学显著"。
问题在于,调查人员并没有真正测试一个假设,他们测试了十二个假设。 他们在研究了所有 12 个星座出生的人的心力衰竭发病率后,只重点研究了双鱼座。因此,在不考虑其他 11 个隐含比较的情况下,将这一组与其他组进行比较是不公平的。在校正了这些多重比较之后,星座与心力衰竭之间并没有显著关联。
拟合多元回归模型为尝试多重分析提供了更多机会:
•尝试加入或排除可能的变异性变量。
•尝试加入或排除交互作用。
•改变结果变量的定义。
•将结果或任何自变量转化为对数、倒数或其他变量。
除非事先做出这些决定,否则就不能按照表面价值来解释多元回归(或多元逻辑回归或比例风险回归)的结果。
直观生物统计学》(8) 第 38 章解释了过度拟合的问题,Babyok (5) 也做了同样的解释。
在某些情况下,您首先要查看数据(也许还要做初步分析),然后根据这些值决定下一步要进行什么检验。Gelman 称之为 "岔路花园",并指出这是多重比较的一种形式 (10)。
编辑更愿意发表报告结果具有统计学显著性的论文。当结论 "不显著"的研究被放弃,而结论 "统计学显著"的研究却得以发表时,解读发表的结果就成了问题。 这意味着,即使零假设全部成立,在发表的研究中观察到 "显著 "结果的几率也可能远远大于 5%。
特纳在业界赞助的抗抑郁药物疗效调查中证明了这种选择性,即所谓的发表偏差(6)。1987年至2004年间,美国食品和药物管理局(FDA)审查了74项此类研究,并将其分为 "阳性"、"阴性"或 "可疑"三类。FDA 的审查人员发现,有 38 项研究显示了积极的结果(抗抑郁药物起作用了)。除一项研究外,其他研究均已发表。药监局审查人员发现,其余 36 项研究的结果为阴性或可疑。其中,22 项研究没有发表,11 项研究在发表时进行了 "改动",使结果看起来有些积极,而在这些负面研究中,只有 3 项研究发表了明确的负面结果。
问题是多重比较的一种形式。我们做了很多研究,但只有部分研究发表了,而这些研究之所以被选中,是因为它们显示了 "理想的"结果。
只有在计划好所有步骤、公布所有计划的分析结果、得出结论时考虑到所有结果的情况下,才能从表面价值上解读统计分析。在常见的统计实践中,这些简单的规则被以多种方式违反。
如果你足够努力,最终任何合理复杂的数据集都会出现'统计学显著'的结果。这就是所谓的数据折磨(6) 或P-hacking (9)。 在审查结果时,你往往甚至无法纠正数据分析的方法数量,因为可能的比较方法数量没有事先定义,而且几乎是无限的。当在没有计划的情况下对结果进行多种分析时,根本无法解读结果。充其量,您可以将研究结果视为一种假设,以便在今后的研究中用新数据进行检验。
1.Vickers, A., What is a p value anyway, 2009.ISBN:978-0321629302。
2.Lee, K. L., J. F. McNeer, C. F. Starmer, P. J. Harris, and R. A. Rosati.1980.Clinical judgment and statistics.冠心病模拟随机试验的经验教训。Circulation 61, (3) (Mar):508-15
3.Pielke, R. Prometheus: 气候科学家的预测验证,第 3 部分。Retrieved April 20, 2008.
4. Austin, P. C., and M. A. Goldwasser.2008. 双鱼座不会增加心力衰竭:数据驱动的分类变量水平间二元比例比较可能导致不正确的统计学显著性水平。临床流行病学杂志》61,(3)(3 月):295-300.
5.Babyak, M.A...What You See May Not Be What You Get:回归模型过度拟合的非技术性简介》。Psychosomatic Medicine (2004) vol. 66 (3) pp.
6.Mills, J. L. 1993. Data torturing.新英格兰医学杂志》第 329 期(16):1196.
7.Turner, E. H., A. M. Matthews, E. Linardatos, R. A. Tell, and R. Rosenthal.2008.抗抑郁剂试验的选择性发表及其对明显疗效的影响》。新英格兰医学杂志》第 358 期(3)(1 月 17 日):252-60.
8.Motulsky, H.J. (2010).直观生物统计学》,第 2 版。牛津大学出版社。ISBN=978-0-19-973006-3.
9.Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant.Psychol Sci 22, 1359-1366 (2011).
10.Gelman, A., & Loken, E. (2013).岔路花园:为什么多重比较可能是个问题,即使没有 "钓鱼考察 "或 "P-hacking",研究假设也是提前提出的?2014年1月30日下载。