首先,我们将“风险比”一词定义为感兴趣事件在单位时间内的发生频率,假定感兴趣事件在该单位时间之前未发生过。较高风险比意味着在给定时间内发生事件的次数较多,而较低风险比意味着在给定时间内发生事件的次数较少。需注意的是,风险会随时间发生变化。以下述图表为例:
在该图表中,风险在刚开始时有点高,然后在最初的一段时间内下降。之后增加到一个小的峰值,并再次减少,最后在观察期结束时以不同的速度增加。对该图表的解读是,在时间点A发生事件的风险高于时间点B;在时间点C发生事件的风险低于时间点A,但高于时间点B;而在时间点D的风险高于时间点A、B或C。
虽然该图表具有理论性,但其与人类预期寿命的实际风险比仍有一定的相似性。事实上,出生时的死亡风险比远高于出生后不久的风险。这种风险比在十几岁至二十几岁时迅速增加(男女之间略有不同),然后随着时间的推移继续增加。
需了解风险与事件发生前时间信息之间的相关性。如果将正在观察的事件发生前时间数据视为离散变量(即,事件只能在定义的时间点发生),则风险的定义相对简单。由h(t)给出的风险采用如下定义:
其中,“T”是代表事件可能发生时的历时变量,而“t”代表感兴趣的特定时间。竖线“|”是概率符号,意为“假定”。因此,换言之,风险比是事件“T”在时间“t”时发生的概率,“假定”该事件在时间“t”之前未发生过。然而,将时间视为连续变量时(在生存分析中几乎总是如此),事情就变得略微复杂一些。由于将时间视为连续变量,因此事件可以在任何给定的瞬间发生。在定义任何的时间窗中,有无限个可能的“瞬间”。考虑到微积分的性质,这意味着事件发生在任何一个特定瞬间(T=t)的概率实际上是零。如果不能立即理解这一点,也无需太过担心,只需知道将时间视为连续变量时(例如,在Cox比例风险回归中的做法),计算风险所需的数学知识就会更复杂一点。
在后续部分,我们将(使用大量数学知识)证明,风险函数与生存函数直接相关。但在不涉及详细信息的情况下,需要知道的重要一点是,为风险函数建模比直接为生存函数建模更容易、更方便。因此,Cox比例风险回归的目的是估计风险函数。根据该风险函数,可以生成生存函数(和生存估计/预测)。