统计员:“哦,所以您已计算出了P值?”
外科医生:“是的,我用了多项式逻辑回归。”
统计员:“真的吗?你怎么想到这种方法的?”
外科医生:“嗯,我尝试了SPSS下拉菜单上的每一项分析,这是一种给出最小P值的分析”。
为使统计分析能够按表面意思进行解释,以下三个语句必须真实:
•所有分析均已进行计划。
•所有计划好的分析均完全按照计划进行,然后进行报告。
•解释结果时,需要考虑所有分析。
但经常会违反这些简单而合理的规则,如下所述。
在分析数据之前,需要做出一些决定。哪些值由于过高或过低而视为错误,从而应该删除?是否以及如何规范?是否以及如何转换数据?
为正确解释P值,必须提前设定实验方案。通常这意味着选择样本量、收集数据,然后进行分析。
但如果结果在统计上不太显著该怎么办?尝试进行多次实验(或添加更多的实验对象),然后在更大样本量的情况下再次分析数据。如果结果仍然不“显著”,则再进行几次实验(或添加更多受试者),然后再次分析。
当以这种方式分析数据时,不可能解释结果。不应使用这种非正式的顺序方法。
如果无差异的零假设事实上为真,则使用非正式顺序方法获得“具有统计学显著性”结果的几率远远高于5%。事实上,如果长时间采用这种方法,则即使零假设为真,每个实验都会最终得出“显著”结论。当然,“长时间”可能确实很长,可能会超过您的预期寿命。
问题是,实验在结果不“显著”时继续,但在结果“显著”时停止。如果实验在达到“显著”后继续,添加更多的数据可能会导致“不显著”的结论。但很少有人知道这一点,因为一旦达到“显著”,实验就会终止。如果您在不满意结果时继续进行实验,但在满意结果时停止实验,则结果无法解释。
统计学家已开发出严格方法来处理顺序数据分析。这些方法使用更严格的标准来定义“显著”,以解释顺序分析。如果没有这些特殊方法,除非事先已设定样本量,否则无法解释结果
分析多个数据亚组是多重比较的一种形式。当一种治疗方法在某些亚组中有效而在其他亚组中无效时,亚组分析就会变成一种多重比较,很容易受到其结果的欺骗。
Lee和同事的一项模拟研究指出了该问题。他们假装比较了冠心病两种“治疗方法”后的存活率。他们研究了一组真正的冠心病患者,并将患者随机分为两组。在真正的研究中,他们会对两组患者采用不同的治疗方法,并比较存活率。在此项模拟研究中,他们对受试者采用相同治疗方法,但对数据进行了分析,就好像两个随机组实际上采用了两种不同的治疗方法。如预期所料,两组的存活率并无区别(2)。
然后,他们根据患者是否患有一、二或三支冠状动脉疾病,以及心室是否正常收缩,将患者分为6组。由于这些变量预计会影响患者的存活率,因此在6个亚组中分别评估对“治疗方法”的反应很有意义。尽管5个亚组之间并无实质性差异,但在病情最重的患者中却出现一项显著结果。患有三支病变并伴有心室收缩功能损害的患者在治疗方法B中的存活率明显高于治疗方法A,两种方法的生存曲线差异具有统计学显著性,P值均小于0.025。
如果这是一项实际研究,则很容易得出结论:治疗方法B对病情最重的患者而言效果更好,将来会向此类患者推荐治疗方法B。但这并非一项真正的研究,两种“治疗方法”仅反映了随机分配的患者的具体情况。两种治疗方法相同,因此观察到的差异完全是由于偶然因素。
作者在6次比较中发现一个低P值并不奇怪。即使所有零假设均为真,6次独立比较中有一次比较的P值小于0.05的概率为26%。
如果预先定义了所有亚组比较,则在解释结果时,可对许多比较进行更正 - 无论是作为分析的一部分,还是非正式地进行更正。但如果并未预先定义这种亚组分析,就会变成一种“数据折磨”的形式。
2000年,政府间气候变化专门委员会对未来气候做出了预测。Pielke问了一个看似简单的问题:这些预测在未来七年的准确性如何?这一问题还不足以使人认真评估全球变暖的预测,但却是必要的第一步。事实证明,该问题无法回答。问题在于,这份报告包含了大量的预测,但并未具体说明应使用哪些气候数据来源。预言是否成真?答案取决于对要检验的预测和数据集的选择 - “樱桃采摘者的盛宴”(3)
仅当预测明确地说明了预测的内容和发生时间时,才能评估预测或诊断的准确性。
在对两组进行比较时,必须将各组定义为研究设计的一部分。如果各组由数据定义,则许多比较均将会隐式进行,并且最终无法解释结果。
Austin和Goldwasser论证了该问题(4)。他们观察了加拿大安大略省12组患者因心力衰竭住院的发生率,这些患者根据星座(基于生日)定义。双鱼座的人心力衰竭的发病率最高。然后,他们做了一个简单的统计检验,比较双鱼座的人心力衰竭发生率和其他所有人的心力衰竭发生率(其他11个星座的人合并成一组)。从表面上看,这种比较表明发病率的差异不太可能出于偶然(P值为0.026)。双鱼座的心力衰竭发生率比其他11个星座的人高(“具有统计学显著性”)。
问题在于,调查人员并未真正检验一个假设;他们对12星座的人都进行了检验。在研究12个星座下出生的人的心力衰竭发生率后,他们只关注双鱼座的人。因此,如果不考虑其他11个隐式比较,将这一组与其他组进行比较并不公平。在对这些多重比较进行校正后可知,星座与心力衰竭之间并无显著相关性。
拟合多元回归模型提供了更多尝试多元分析的机会:
•尝试包括或排除可能的混淆变量。
•尝试包括或排除交互。
•更改结果变量的定义。
•将结果或任何自变量转换为对数或倒数或其他形式。
除非事先作出这些决定,否则多元回归(或多元逻辑或比例风险回归)的结果不能按表面意思进行解释。
《直观生物统计学》第38章(8)解释了过度拟合的问题,Babyok(5)也做出了解释。
在某些情况下,应首先查看数据(可能还需要进行初步分析),然后根据这些值决定下一步要运行的检验。Gelman称之为“交叉小径的花园”,并表示这是多重比较的一种形式(10)。
编辑更喜欢发表报告结果具有统计学显著性的论文。当放弃“不显著”结论的研究,而发表“具有统计学显著性”结果的研究时,解释已发表的结果就成了问题。这意味着,即使零假设均为真实,在已发表的研究中观察到“显著”结果的几率也可能远远大于5%。
Turner在行业赞助的抗抑郁药疗效调查中证明了这种选择性 - 称为发表偏倚(6)。1987-2004年间,美国食品和药物管理局(FDA)对74项此类研究进行了审查,并将其归类为“阳性”、“阴性”或“可疑”。FDA审查人员发现,38项研究结果呈阳性(抗抑郁药起有效)。除一项研究之外,所有研究均已发表。FDA审查人员发现,其余36项研究的结果为阴性或可疑。其中,22项未发表,11项发表时带有使结果看起来有些阳性的“旋转”,只有3项阴性研究发表时带有明显的阴性结果。
该问题是多重比较的一种形式。许多研究已经完成,但只有一些已经发表,这些研究之所以被选中,是因为其显示了“期望的”结果。
仅当计划好所有步骤、公布所有计划好的分析,并且在得出结论时考虑所有结果时,统计分析才能按表面意思进行解释。在一般统计实践中,会在许多方面违反这些简单的规则。
如果您足够努力,则最终任何合理复杂的数据集均会产生“具有统计学显著性”的结果。这称为 数据修改 (6)或者 p - 值篡改(9)。查看结果时,由于可能的比较数量并未预先定义,而且几乎是无限的,因此您通常甚至无法更正数据分析的方式。当结果在没有计划的情况下以多种方式进行分析时,结果根本无法解释。您最多可将这些发现当作一个假设,在未来的研究中用新的数据进行检验。
1.Vickers,A,什么是P值,2009,ISBN:978-0321629302。
2.Lee、K. L.、J. F. McNeer、C. F. Starmer、P. J. Harris和R. A. Rosati,1980,临床判断和统计。冠状动脉疾病模拟随机试验的经验教训。第61期,(3)(3月):508-15
3.Pielke,R. Prometheus:气候科学预报验证,第3部分。收稿日期:2008年4月20日。
4.Austin,P. C.和M. A. Goldwasser,2008,双鱼座出声的人不会增加心力衰竭的发生率:数据驱动的分类变量级别之间的二元比例比较可能会导致错误的统计学显著性水平。《临床流行病学杂志》第61期卷第(3)期(3月):295-300。
5.Babyak,M.A.,您看到的可能并非您得到的:回归型模型中过度拟合的简单、非技术性介绍。心身医学(2004)第66卷第3期第411页
6.Mills,J. L.,1993,数据修改。《新英格兰医学杂志》329,(16):1196。
7.Turner、E. H.、A. M. Matthews、E. Linardatos、R. A. Tell和R. Rosenthal,2008,抗抑郁药物试验的选择性发表及其对表观疗效的影响。《新英格兰医学杂志》第358卷第3期(2017年1月):252-60。
8.Motulsky,H.J.(2010),《直觉生物统计学》,第2版。牛津大学出版社。ISBN=978-0-19-973006-3。
9.Simmons,J.P.、Nelson,L.D.和Simonsohn,U.,假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何有意义的东西。《心理科学》22,1359 - 1366(2011)。
10.Gelman,A.和Loken,E.(2013),分叉路的花园:为什么多重比较会成为问题,即使没有“fishing expedition”或“P值篡改”,而且已经提前提出研究假设下载时间2014年1月30日。