Please enable JavaScript to view this site.

在生存分析中,反应变量是指定义的“起始时间”与定义的“终点”之间的历时量。该历时通常称为生存时间,原因在于在此类研究中,共同“终点”是受试者死亡。对于几乎任何类型的生存分析,主要目标都是估计或理解该反应变量与一个或多个预测变量之间的关系。这些预测变量可以是按实验条件指定的因素(例如,接受一种治疗 vs.接受不同治疗或对照),或者也可以是观察变量(例如,研究参与者的性别)。

例如,生存分析可用于通过衡量接受新治疗的个体与接受标准治疗的对照组相比的生存时间,检验新癌症治疗的效果。通过比较各研究组中的个体生存时间,可以获得关于新疗法疗效的信息。

另外,在生存分析中,假设您为一家公司工作,该公司生产一种在全国不同实验室使用的实验室设备。您的任务是研究设备中特定组件的故障。除测量每台设备在组件出现故障之前的使用时间外,还可以记录每间实验室内的环境温度和相对湿度(假设这些因素不会随时间的推移发生变化)。在本例中,可通过生存分析检验温度(或湿度)与设备内组件故障发生前时间之间的潜在关系。

一旦建立预测变量与生存时间之间的关系,该信息也可以用于估计其他受试者或个体随时间变化的生存概率(假设已知这些个体的预测变量值)。

 

这听起来很像多元线性回归

如果熟悉多元线性回归模型,便会认为生存分析似乎在试图实现相同的目标(即,揭示一些测量的反应变量与一些预测变量之间的关系)。如本指南后文所述,多元线性回归和一些生存分析方法之间有一些相似之处(见:Cox比例风险回归)。然而,生存数据的一些重要特征导致典型的多元线性回归方法不适用于此类数据的分析。

生存数据通常呈高度偏斜分布

如前所述,生存分析的反应变量是每次观察(受试者、个体等)与定义的某终点之间的历时量。这对反应变量中的数值分布存在一些重要影响。第一,由于我们测量的是历时,所有值均为正值(生存分析中没有“负时间”)。第二,观察生存时间或对其抽样时,得到的值一般高度偏斜。考虑下文显示一组5000项观察结果的生存时间的直方图

很大一部分生存时间介于时间1-3之间(几乎70%的观察生存时间均位于该范围内)。但早在时间13便存在多项观察结果。直方图右侧的这些值涉及给分布赋予“大右尾”或者分布呈“右偏斜”。这些数据均为模拟数据,但示出了在真实生存数据中经常观察到的右偏斜分布特征。由于这种偏斜,许多依赖于正态(高斯)分布的假设和方法无法使用。

删失数据

生存分析与标准线性回归法之间的另一主要区别是删失数据的发生率。这是生存分析中非常重要的主题之一,详见指南专用页面。

© 1995-2019 GraphPad Software, LLC. All rights reserved.