结果变量(Y变量、因变量、反应变量等)只能呈现两种可能的结果时,使用逻辑回归,其目的是模拟观察成功的概率。从该意义上来说,“成功”只是指这两种可能结果中的一种,应基于实验设计。正如统计学中的许多术语一样,在此情况下,“成功”的含义与我们通常使用的含义略有不同。例如,在研究群体中罕见疾病的发病率时,您可能感兴趣的是一个人患上这种疾病的概率。在此情况下,如果仅仅是为构建模型,您会考虑将患上这种疾病设置为“成功”。
再看另一个示例,假设给您一个数据集,其中包含学生为考试所学习的时间长度,以及这些学生是否通过了考试。您可能希望学生为考试而学习时间越长,学生通过考试的可能性就越大。在这里,“成功”指学生通过。然而,用于逻辑回归的Y变量可以是任意值,只要它只能取两个可能值中的一个:是/否、通过/未通过、存活/死亡等等。另一种说法是,结果变量必须是“二分类”。通常,会将这些结果编码为“1”(表示“成功”)或“0”(表示“失败”)。请注意,在我们的示例中,如果给您每个学生的分数(百分比),您可能已考虑过执行线性或非线性回归。然而,因为我们的结果是二分类结果,因此逻辑回归才是合适的选择。
从某种意义上来说,简单逻辑回归可认为是简单线性回归的扩展,以处理具有二分类结果的情况:简单线性回归和简单逻辑回归均建立模型,通过知道单个输入值(X)可预测结果值(Y)。因此,在思考线性回归和逻辑回归的异同时,有两件非常重要的事情需要记住:
1.结果为连续结果时,适用线性回归;结果为二分类结果时,适用逻辑回归。试图在二分类结果变量上使用线性回归是行不通的。
2.逻辑回归会生成一个模型,允许您预测 成功的概率给定某个X值。您放入模型中的数据将只包括实际结果(在给定的X值下,观察到成功与否)。
以下章节详细讨论了这两个主题