将逻辑回归模型拟合到一组数据的过程包括为模型的参数识别一组“最佳拟合”值。这种工作方式是通过使用迭代算法来最大化逻辑回归模型的似然函数。思考这一过程的一种方式是,其试图发现“最有可能”模型的参数值,这些参数值已创建了观察数据。这产生了几个重要的概念。首先,这意味着-总的来说-逻辑回归模型在拟合(或分类)输入数据方面比在正确预测新数据结果方面表现得更好。
使用这种方法的另一个含义是,在某些情况下,算法不可能确定参数值,因此在这些情况下不可能定义一个逻辑回归模型。在出现逻辑回归时的三种常见情况包括:完美分离、拟完美分离和X变量的线性相关性。
完美分离,有时又称完美分离,这是当一个模型完美地预测数据时使用的术语。另一种说法是,对于给定的预测因子(或预测因子的某种线性组合),一个结果始终出现在该预测因子的某个值之上,而另一个结果始终出现在该值之下。这听起来可能有点混乱,但实际上这意味着模型会将每一个输入为0的点正确归类为阴性结果,将每一个输入为1的点归类为阳性结果。表面上看,这似乎不是一个大问题,因为逻辑回归的目标之一是对观察到的结果进行分类。然而,逻辑回归的另一个目标是找到模型参数的最佳拟合估计值,完美分离的问题是,在这些情况下,不存在一组最佳拟合值能最大化使似然比。让我们查看一个简单的示例:
您可以看到,对于每个等于或小于5的X值,Y值均为0。对于每个大于5的X值,Y值均为1。当只存在一个预测因子时(比如简单逻辑回归),我们可以从图形上看到完美分离的含义:
显然,可在X=5和X=6之间画一条垂直线,对于该垂直线,线左侧的所有点均在Y=0上,且线右边的所有点均在Y=1上。因此,极易通过X预测结果。但S形逻辑曲线无法做到这一点,因为数据无法提示曲线应该位于5与6之间。如果X=5.5,则预测概率是多少?
拟完美分离是与完美分离密切相关的问题。除非是在单个值或点上,否则当一个预测因子(或预测因子的线性组合)对结果进行正确分类时,就会发生这种情况。同样,让我们查看一些数据以更好地理解该问题:
现在您可以看到,对于所有小于5的X值,Y值都均为0。对于所有大于5的X值,Y值均为1。然而,在X=5时,同时出现Y=0和Y=1。再次,无法最大化似然比,因此无法确定参数的最佳拟合估计值。
最后,如果您所有的X值均为相同值,则Prism无法将逻辑模型拟合至数据或最大化似然函数(见下文描述线性相关的X变量的章节)。
然而,请记住,如果您遇到此误差,这不一定代表您的实验设计或数据存在一个问题。这可能只是意味着您已确定了能够完美(或拟完美)预测您的结果的X变量(或变量)。
尝试将逻辑模型拟合至数据时,另一个可能出现的问题是存在线性相关的X变量。当模型包含线性相关的预测因子时,由于不存在似然函数的最大值,因此拟合模型算法将失效。为理解这一点,我们首先需要明确线性相关的含义。如果您的任何一个X变量可表示为其他变量的线性组合,则您的变量就称为具有线性相关性。除非我们也确定变量的线性组合的含义,否则这没什么帮助。变量的一个线性组合是指一组给定变量的总和,其中每个变量需乘以一个常数。通过一个示例可能可以最简单地解释这一点。假设您有三个变量:X1、X2和X3。现在,我们写一个公式:
X3 = A*X1 + B*X2
如果有A和B的任意值可以使该表达式正确,则X3是X1和X2的线性组合。让我们查看一些数据,以便更清晰地解释该概念:
该数据显示出我们的三个变量(变量可以是任何东西:年龄、身高、去洗手间的步数……)。对于该数据,极其容易观察到线性关系:
X3 = 1*X1 + 2*X2
换言之,在每一行中,第三个值是第一个值加上第二个值的两倍的总和。其他线性关系可能不那么容易观察:
前两列中的值是相同的,但此处的线性关系由以下给出:
X3 = -1.285*X1 + 3.41*X2
线性相关性问题可呈现自身的另一种方式是,在您具有重复X列的情况下。当使用已编码的分类预预测因子时,可能会无意间发生这种情况。已编码的分类预测因子只能接受有限数量的值,因此极易看出两个原本无关的分类变量是如何偶然地在每次观察结果中以相同值结束的(这在某种程度上与变量相关的情况下,甚至更有可能)。当然,这种偶然发生的优势随着观察数的增加而降低。
对于两个可能相同的变量来说,一个容易理解的示例可能是分析足球比赛。想象一下,使用一个变量并表示“命中”,而第二个变量可能是“最终得分”。在此情况下,显而易见,但您应始终警惕在您的模型中伪装成自变量的重复(或线性相关)变量。
如果您有重复的X列、完美相关的X列或具有更复杂线性关系的X列,则优化算法将失效。如需评价此问题,请选择多元逻辑回归对话框中的多重共线性选项。有关更多详细信息,见多重共线性页面。
1.您具有过少的0或1(如有可能,我们建议,对于每个自变量(X),至少列出10行)
a.在极端情况下,如果您的值均为0(或均为1),则可保证完美分离,因为该算法无法区分两个结果。
b.另一个极端的情况是,如果您具有与数据行一样多或更多的X变量。在此情况下,不存在估计模型误差的方式。
2.您的其中一个X变量(或X变量的一个线性组合)导致您的Y变量完美分离或拟完美分离。
3.您的X变量表现出线性相关性。