在进行生存分析时,如果从时间到事件的响应变量数据伴有多个预测因子变量(包括分类或连续预测因子变量),则不能使用非参数方法,如使用Kaplan-Meier (乘积极限)估计器。另一种方法是使用半参数技术--Cox 比例风险回归。本指南以下几页将介绍 Cox 回归的背景和数学理论。如果您只是想了解如何在 Prism 中运行该分析,请跳至本操作指南页面。
Cox 比例风险回归是 Prism 9.3.0 中引入的最新(也可以说是最先进的)Prism Labs 功能。这种分析作为生存分析的行业标准已经非常成熟,可以对多种不同类型的预测因子变量(包括分类变量和连续变量)及其对生存的影响进行复杂的研究。为了确保 Prism 生成的结果准确无误,我们做了大量工作,在这些指南页面中,您会发现许多关于如何生成这些结果的解释,以及如何解读其中许多结果的基本指导。
不过,Cox 回归是一种高级 分析,可以说比 Prism 中的任何其他分析都要高级。在使用 Cox 回归分析数据之前,请务必了解生存分析的基本原理(即Kaplan-Meier 生存估计和用于比较所生成的生存曲线的各种检验:对数秩检验、对数秩趋势检验和 Gehan-Breslow-Wilcoxon 检验)。Cox 回归还在很大程度上依赖于检验力其他形式多元回归(如多元线性回归和多元逻辑回归)的统计概念。即使了解了所有这些不同的概念,在处理这些复杂的技术时,最好的建议始终是寻求统计学家的指导或帮助。
首先,让我们考虑一下什么是 "半参数"?在前面的章节中,我们探讨了线性回归不能用于分析生存数据的原因。其中一个原因是数据(生存时间)高度偏斜,根据定义必须是正数(生存时间不能是负数)。线性回归在很大程度上依赖于正态(高斯)分布,但这种分布并不能很好地描述生存数据。值得注意的是,正态分布是一种对称分布,可以包含负值。相反,可以使用其他分布(如威布尔分布、指数分布、对数正态性分布或其他分布)来分析生存数据。在所有这些指定了分布的情况下,分析都被认为是 "参数分析",因为它们假定数据来自一个可以用一组严格参数定义的分布(说得更准确一点,这些分析对危害函数的形式做了一个假设,这将在后面讨论)。Cox 比例风险回归并没有对时间数据的分布做出这样的假设,但它确实对预测变量对生存时间的影响做出了参数假设。因此,它是一种 "半参数"技术。
那么,如果考克斯比例风险不对生存数据的分布做出假设,它又是如何估计生存曲线(提供生存概率与时间的函数关系的生存函数)的呢?后面的章节将介绍这一技术背后的一些数学知识,但简短的答案就在分析本身的名称中:"比例风险"。要理解这意味着什么,我们先来看看什么是危险率。