您将看到的第一部分结果是指定模型的回归系数(β系数)的最佳拟合值。请注意,不同于其他多元回归技术,Cox比例风险回归不包括截距项(β0)。即使将截距项强制纳入模型,也会被基线风险“吸收”(h0(t))。此外,请注意,当模型中包含分类变量时,这些变量会自动进行“虚拟编码”,从而为每个级别的分类变量(参考级别除外)生成单独的参数估计值。因此,我们模型的结果包括十三个单独的β系数,具体如下:
这些参数估计值的解释与标准多元线性回归有点不同。考虑用于该分析的Cox比例风险模型:
如果我们通过划分基线风险来重新排列该等式,则会得到以下结果:
最后,如果我们取两边的自然对数,我们得到的形式如下:
使用这种形式的等式,现在可以看到,等式左侧是特定个体或研究组的风险比(使用对应于该个体或研究组的特定预测变量)除以基线风险(表示在所有预测变量均设置为零或其参考值时的风险比)之后所得比率的对数值。即,“比例风险”这一术语的来源,原因在于该分析中的模型实际上是在估计风险比(用不同预测变量指定的研究组和基线研究组)。
知晓这一点后,可以看到β系数的值代表对数风险比增加(正值)或减少(负值)。例如,在我们的结果中,β1(性别[男性])等于-0.1879。这意味着,相比于女性,男性的对数风险比在所有时间点均下降0.1879。β6(年龄)的值为0.04589。这意味着每增加一岁,对数风险比增加0.04589。
β系数的直接解释很复杂,原因在于这些系数对应于对数风险比的变化,而通常更容易理解线性标度而非对数标度的变化。因此,结果的下一部分是风险比。
有关参数估计值与风险比之间关系的更详细讨论,请参见此处,但在本质上,风险比表示在与风险比相关的预测变量增加1时,风险比增加多少倍(或者减少多少倍)。此外,使用上述示例中的年龄,我们可以看到风险比等于1.047。这意味着参与者的年龄每增加一年,风险比增加1.047倍。从数学上讲,风险比只是指数化的β系数(例如,年龄的风险比1.047相当于exp(0.04589),其中0.04589是该模型中年龄的β系数)。
考虑到所有这些,我们可以看到,到目前为止,该模型的一般结论是,我们预计心脏功能差(射血分数低)、高血压和肾功能差(血清肌酐高)的老年人的风险比会增加(因此生存时间会缩短)。还需注意的是,虽然年龄的风险比似乎相对较小(例如,年龄的风险比为1.047,而高血清肌酐的风险比为2.226),但这是每年年龄的影响。这意味着年龄增加一年,风险比只会增加1.0471=1.047,而年龄增加十年,风险比会增加1.04710=1.58!
默认情况下,参数估计值的P值不会在结果中给出,因此本文不再详细讨论。然而,如果您希望在分析的表格结果中包含P值,您可以通过启用“分析”对话框的“选项”选项卡上的该选项来实现。有关如何解释这些P值的更多信息,请参见此处。
Cox比例风险回归的表格结果的下一部分提供了将指定模型与不包含预测变量(协变量)的模型进行比较的信息。默认情况下,此处显示的值包括每个模型的参数量以及赤池信息量准则(AIC)值。可在“分析”对话框的“选项”选项卡上添加其他诊断值。
本节中列出的AIC值可帮助您快速评估分析中指定的模型在拟合数据方面是否比空(零)模型更优。AIC值的计算方法有点复杂,但使用这些值来比较两个模型实际上很直观:AIC越小,模型拟合越优。无协变量模型的值为1018,分析中指定的模型的值为960.5,我们可以确定指定的模型在描述观察结果数据方面更优。
Cox比例风险回归的表格结果页面上的最后一部分简单地列出了输入数据的详细总结,其中包括输入数据表中的数据行数、跳过的行数,以及该分析中包含的观察结果数产生的两个值之间的差值。接下来,本节报告了关联数量(对具有相同历时的事件的观察)。在此之后,列出删失观察结果数和记录到死亡/感兴趣事件的观察结果数。基于这两个值,报告删失观察结果与事件之比。根据所研究的事件,该比率可能存在很大差异(事件相对不常见时,删失观察结果与事件之比可能很大,如本示例所示;事件很常见时,该比率可能非常小,原因在于大多数观察将导致事件发生)。
此外,在本节中,还重复计算删失观察结果数和观察结果总数,以及这两个值的比率(提供分析中使用的删失观察结果所占比例)。最后,重复计算记录到死亡/感兴趣事件的观察结果数以及参数估计值总数,以及这两个值的比率。通常情况下,每项参数的事件数比率应在10左右。
默认情况下,Cox比例风险回归还会生成另外两个结果选项卡。第一个是“个体值”选项卡。顾名思义,该结果表列出了输入数据表中的每个个体(行)的计算值。每个个体的历时包括在该表中,同时包括线性预测值、风险比(exp[线性预测值]),以及根据在报告的历时所生成的每个个体模型计算的累积风险和累积生存率。有关如何计算这些值的具体详细信息,请参见指南的本页。
除列出输入数据表中的各特定观察结果(行)的估计值外,Prism还生成基线累积风险(H0(t))和基线累积生存率(S0(t))的基线值表。不同于个体值表,该表为输入数据中的每一个唯一时间设置一行,并按这些时间值以升序排序。
基线累积风险和基线累积生存率的计算在单独一页中进行介绍,但应注意的是,该表用于生成基线值的图表,该图表可以设置为显示基线累积风险或基线累积生存率(下文示出了该分析的两个示例)。
需注意的是,这些基线图可用于使用每个预测变量的参数估计值(或风险比)确定特定群体的估计生存/风险曲线。
默认情况下,Prism将生成三种不同的残差图:
•缩放的Schoenfeld残差 vs.时间/行顺序关系图
•偏差残差 vs.线性预测值/HR的关系图
•偏差残差 vs.协变量
所有这些均可用于检查模型拟合的不同方面。
该图表的主要用途是检验指定模型的比例风险假设。针对模型中包含的每项参数(在我们的示例中,是β1到β13)生成一组缩放的Schoenfeld残差。通过绘制这些残差相(Y轴)与时间(X轴)之间的关系图,我们预计在绘制的数据中无显著趋势。可在同一张图表中检查每个研究组的不同残差集(使用“设置图表格式”对话框更改Y轴上绘制的变量),如果这些残差出现强趋势,则表明可能违反比例风险假设。在我们的示例中,该假设似乎合理(下文给出了β1:性别[男性]和β6:年龄的示例)。
该残差图可以用于检查数据中的潜在异常值。这些残差将以零点为中心。极大或极小的值代表数据中的潜在异常值。这些点表明受试者发生感兴趣事件的时间比模型预测的时间早得多(极大正残差)或比模型预测的时间晚得多(极大负残差)。使用“设置图表格式”对话框(双击图表区域打开),可以在X轴上绘制每项观察结果的线性预测值或风险比(结果的“个体值”选项卡上显示的值)。这两者之间唯一的区别是缩放(原因在于风险比是指数化线性预测值)。请注意,下图左下方区域中密集的较大聚点由于数据集中有很高比例的删失观察结果生成。根据定义,删失观察结果的偏差残差必须为负(基于用于计算残差的数学方程,此处未显示)。直观上,这种做法有意义。删失观察结果无观察到的事件时间。因此,这些观察到的事件时间不得早于模型预测的时间(偏差残差的要求为正)。因此,所有删失观察结果的偏差残差必须为负。
这些残差图用于检验各协变量的线性度假设。根据模型中的每个协变量绘制偏差残差时,预计这些残差将大致以零点为中心。如果这些图表中存在趋势,则可能表明违反所选协变量的线性度假设。请注意,目前,Prism只能在X轴上显示这些图表的连续预测变量(协变量)。我们模型的偏差残差 vs.年龄图表如下所示,未显示明显趋势,表明未违反该预测变量的线性度假设。
由我们所关注的分析生成的最后一张图表包含我们在“分析参数”对话框“图表”选项卡上指定的研究组的估计生存曲线。使用该选项卡上的选项,我们选择高血压变量(同时选择“是”和“否”值)和年龄变量(值为40)。Prism将这些信息与基线生存曲线(在本页讨论)一起用于生成两个群体的估计生存曲线:
•高血压和40岁群体
•低血压和40岁群体
Prism生成的图表展示了许多重要概念。首先,我们看到高血压群体的生存概率估计低于非高血压群体的生存概率。这与我们先前看到的相同预测变量的参数估计值(和风险比)相匹配。导致风险比大于1(HR=1.632)的正参数估计值(β4=0.490)表明,相比于无高血压的个体,高血压个体的风险更高(生存概率更低)。
这些估计生存曲线证明的另一个非常重要的概念是比例风险假设。该假设表明,每个个体的风险与某个基线风险成比例。该假设可用一系列不同年龄值的估计生存曲线直观显示出来。下图包括基线生存曲线以及代表不同年龄值的五条不同曲线。
可以看出,这些生存曲线中的每一条均采用相同的常规形状,任何给定时间的生存概率的指定值与该时间点的基线生存概率成比例。