简单逻辑回归的模型写法是 logit[P(Y=1)] = β0 + β1 * X + 误差。
在右侧,这与简单线性回归的模型相匹配(请记住简单线性回归模型是 Y = 截距 + 斜率*X)。左侧包括一个 "logit "函数(长 o,短 g),用于调整 Y 是一个只能取值 0 和 1 的变量这一事实。简而言之,logit 是 Y=1 的几率的对数,"P(Y=1) "是 Y 等于 1 的概率。请注意,这里的 "P "是概率的缩写,与 P 值无关。
要理解什么是 "对数几率",首先要知道什么叫几率。几率等于 Y=1 的概率除以 Y=0 的概率。例如,如果 Y=1 的概率是 0.8(或者说 Y=1 的概率有 80%),那么 Y=0 的概率就是 1-0.8 或 0.2(记住,Y 只能是 0 或 1,所以 Y=0 的概率就是 1-[Y=1的概率])。利用这些数字,我们可以计算出优势比,即这两个数字之比:
几率 = P(Y=1)/P(Y=0) = 0.8/0.2 = 4
在这种情况下,几率是 4。你经常会听到有人把这称为 4:1 的几率,你会把它理解为 "四比一的几率"。 现在我们知道了几率与概率的关系,我们可以采取最后一步来计算对数几率。这只需使用计算出的几率值,并取该值的自然对数(Ln)即可:
对数几率 = Ln(Odds) = Ln(P(Y=1)/P(Y=0)) = Ln(P(Y=1)/[1-P(Y=1)])
上面列出的对数几率的所有形式都是等价的,虽然这些数学听起来可能相当令人困惑,但我们之所以要做这些工作,是因为我们想要模拟 Y=1 (或 Y=0)的概率。
更重要的是,我们想用一个线性模型(简单逻辑回归方程的右边)来模拟这个概率。回想一下,概率的范围在 0 和 1 之间。简单逻辑回归模型的右侧,就像简单线性回归模型一样,可以生成(理论上)从负无穷到正无穷的任何值。logit 函数用于连接这两个范围。
从概率开始:这些值只能从 0 到 1:

首先,我们取几率,将这个从 0 到 1 的范围转换为从 0 到 +infinity 的范围(计算 0 到 1 之间任何概率的几率,自己看吧!):

接下来,我们对几率取自然对数,得到对数几率,这又将比例转换为从负无穷大到正无穷大的比例:

因此,您可以把 logit 函数看作是用数学方法将模型右侧产生的值(可以是任何值)与概率的边界值(必须介于 0 和 1 之间)连接起来。