Cox比例风险回归的目标是生成观察群体的风险比生成模型,特定事件的风险比模型。该群体由模型中用于估计该风险比的各种不同预测变量定义。并且,根据该风险比,可估计研究群体的生存函数。执行Cox比例风险回归时,提出了许多假设,应在执行此分析时了解此类假设。本页给出了执行Cox比例风险回归或解读该分析的结果时,需要提出的若干重要问题。
鉴于该分析的名称,仅从询问比例风险的假设是否成立开始才有意义。该假设基本上表明,有一个(且只有一个)适用于整个观察群体的基本基线风险函数。任何给定个体(或个体组)的风险比均属于该基线风险函数的缩放版本。适用于该基线风险函数的缩放量基于该个体(或组)模型中的预测变量值。如果比例风险假设为真,则在一个时间点的风险是基线风险的3倍的个体在所有时间点的风险均为基线风险的3倍。这也意味着任何两个个体或组之间的风险比率必须始终保持不变。如果男性风险与女性风险之比为2.5,则意味着男性发生感兴趣事件的风险始终比女性高2.5倍。该假设相当大,考虑到生物系统的复杂性和可变性,可能并非始终完全正确。为检验该假设,可创建对数-负对数图(使用Prism中“Cox回归参数”对话框的“残差”选项卡,创建这些图表)。
如果违反比例风险的假设,则有一些可用于尝试解释此情况的方法。其中一种常见方法是使用违反pH假设的变量对模型进行分层。确定输入数据后,可根据该变量的级别将其分成新研究组。此后,将Cox比例风险回归模型分别拟合每个新研究组。该过程有时称为拟合“分层Cox模型”。但Prism未提供自动执行该操作的选项。
为在Prism中执行Cox比例风险回归,必须将数据输入多变量数据表中。在该表中,每列作为一个变量,每行作为一个观察结果。在每个观察结果(行)中,必须输入以下值:
•事件发生前时间(反应)变量
•事件/删失(结局)指标变量
•模型中包含的各预测变量
如果某行缺失这些变量中任何一个的值,则在拟合模型时会将其忽略。请注意,不使用缺失事件/删失变量值的观察结果(行)拟合模型,但在模型拟合后,仍可使用“参数”对话框的“预测”选项卡计算估计生存概率(如果为该观察结果提供事件发生前时间变量值)
否!不同于多元线性回归,Cox比例风险回归无截距项。此处未给出数学证明,但通常的解释是,由于未定义基线风险(h0(t)),任何加到模型中的常数截距项均将简单地“吸收”到该基线风险中。因此,在定义Cox比例风险回归模型时,无需(或不允许)截距。
在生存分析中,一些观察结果或个体已删失,这意味着我们没有关于他们发生感兴趣事件前的历时量的信息(我们只有关于他们删失前的历时量的信息)。但使用Cox回归(以及其他形式的生存分析)提出的假设是,删失的观察结果与个体死亡(发生感兴趣事件)的概率之间无关系。删失的观察结果不应更多(或更少)发生感兴趣事件。换言之,该假设表明,如果删失的观察结果实际上跟踪至其发生感兴趣事件,则该生存时间分布将与为未删失的观察结果观察到的生存时间分布相同。
信息不够充分的删失也意味着删失观察结果的原因不应与研究设计有关。思考一项研究实验药物的临床研究。药物的效果可能非常好,导致治疗组中的个体可能认为自己已经“治愈”,不再需要随访(导致删失这些个体)。对照组中的个体将不会经历这种改善,并将继续参与研究。由于相比于对照组,治疗组的删失率较高,可能无法准确记录治疗组的实际生存时间,也可能无法发现治疗效果。或者,治疗不应使患者感到非常糟糕,导致他们选择退出研究(这也不会视为信息不够充分的删失)。
不同于其他很多回归技术,其中一项重要假设是观察结果相互独立。对于Cox回归,每个个体的生存时间必须相互独立。换言之,个体1的生存时间不应取决于个体2的生存时间。
Cox比例风险回归模型的另一个假设是预测变量的效应相对于对数风险呈线性。这句话刚开始听起来可能有些混乱,但思考Cox回归中用于风险比(h(t))的方程:
稍加整理和简化后,该方程可写成:
采用这种形式,更容易了解假设预测变量(x1,x2,x3等)对对数风险具有线性效应。目前有多种方法可检验该假设,例如使用偏差残差并绘制这些偏差残差与预测变量值之间的关系图(可以使用“残差”选项卡中的选项生成该图表)。使用该图表,我们预计可看到相对于预测变量值,残差中无模式(残差应均匀地围绕着零)。
在预测变量呈现非线性的情况下,可采用一些方法来尝试纠正这种违反线性假设的情况。类似于其他回归技术,其中一种解决方案可能是变换变量(例如,使用对数或指数变换)。其他可能的解决方案可能是在模型中包含变量的多项式项,或者将连续变量变换为分类变量。
Cox比例风险回归的有趣假设是预测变量值不会随时间推移而变化。必须在不同时间段内跟踪用Cox比例风险回归分析的研究中的个体(以确定每个个体在发生感兴趣事件前的历时)。但在此期间,不得改变预测变量。例如,如果“治疗”是“对照”和“治疗”组的预测变量,则在研究期间,个体不得不在这些研究组之间互换(即“治疗”组中的个体应始终在治疗组中)。在其他类型的多元回归(例如,多元线性回归)中,数据无时间成分,因此无需该假设。但鉴于Cox回归数据的性质,该假设是否有效非常重要。
如果模型中的预测变量表现出高度多重共线性,则估计的标准误差和P值将毫无意义。阅读关于多重共线性以及Prism如何报告模型变量之间的这种关系的更多内容。
通常情况下,在统计建模中,数据越多越好。但由于各种限制,样本或群体大小可能经常受到限制。结果表的“数据总结”部分包含许多来自输入数据的重要总计统计量。其中,可以使用数据中的事件数量、指定模型拟合的参数数量以及这两个值的比率来评估有无“足够”数据支持选定模型。并无指定值可用于明确表示给定模型有“足够”数据,但一般经验法则是,模型中已拟合的各项参数应至少有10例事件。请注意,这并非观察结果(删失和事件)的比率,只是每项参数的事件数。此外,还需注意,该比率的分母是模型中参数估计值数量,而该数量可能大于变量数量(由于模型中包含有两个以上级别或交互的分类变量)。
类似于上述观点,您指定的模型包含过多变量(过拟合)还是过少变量(欠拟合)?将指定模型拟合到数据后,一些包括在内的预测变量可能不会促使风险发生变化(换言之,其β系数接近或等于零,或者其风险比接近或等于一)。如果这些变量值不会促使风险发生变化,是否想要将其包括在模型中?在某些情况下,保留这些变量非常重要,原因在于其在实验设计中很重要,或者基于您对实验和相关科学的了解。在其他情况下,可能仅需从模型中删除该变量即可,但这是一个有争议的主题,因此请勿不假思索地删除。
另一方面,模型的拟合度可能不如预期。这可能归因于您未测量或者选择未包含在模型中的重要变量。在此情况下,模型称为“欠拟合”数据。如果缺失变量是未在实验中测量的变量,则除返回收集更多数据之外,没有更好的选择。但如果缺失变量只是从模型中省略,则可能需要重新思考为什么要删除该变量。此外,您可以使用“参数”对话框中的“模型”选项卡,包括模型中预测变量的各种变换和交互。