简单逻辑回归的模型可写为logit[P(Y=1)]=β0+β1 * X+error。
在右手侧,这与简单线性回归模型相匹配(记住简单线性回归模型为Y=intercept+slope *X)。左手侧包括一个“logit”函数(long o,soft g),其根据Y是变量(只能取0和1)的事实进行调整。简言之,logit是优势(Y=1)的对数,“P(Y=1)”是Y等于1的概率。请注意,在此情况下,“P”是概率的缩写,与P值无关。
如需理解什么是“对数优势”,了解对数的含义是很重要。优势等于Y=1的概率除以Y=0的概率。例如,如果Y=1的概率是0.8(或Y=1的概率是80%),则Y=0的概率是1-0.8或0.2(记住,Y只能是0或1,因此Y=0的概率是1-[Y=1的概率])。使用这些数据,我可计算这两个数据的优势:
优势=P(Y=1)/P(Y=0)=0.8/0.2=4
在此情况下,优势为4。您会经常听到人们把这称为4:1的优势,可将其读作“4比1的优势”现在我们知道了优势与概率的关系,我们就可进行最后一步来计算对数优势了。这只需要使用计算出的优势值,然后对该值取自然对数(Ln):
对数优势=Ln(Odds)=Ln(P(Y=1)/P(Y=0))=Ln(P(Y=1)/[1-P(Y=1)])
上文列出的所有对数优势形式均是等价的,尽管这种数学方法听起来很混乱,但我们完成所有这些工作的原因是,我们想建立Y=1(或Y=0)的概率模型。
更重要的是,我们想用线性模型(简单逻辑回归方程的右手侧)来模拟这种概率。回想一下,概率介于0和1之间。简单逻辑回归模型的右手侧,与简单线性回归模型一样,可生成(理论上)从负无穷大到正无穷大的任何值。logit函数可用于这两个范围的连接。
从概率开始:这些值只能从0到1:
首先,我们取优势,将该从0到1的标度转换成从0到+无穷大的标度(计算0到1之间任何概率的优势,自己看吧!):
接下来,我们取优势的自然对数,得到对数优势,它将标度再次转换为从负无穷大到正无穷大的标度:
因此,可将logit函数视为使用数学运算将模型右手侧生成的值(可以是任何值)连接至概率的界限值(必须在0和1之间)。