本指南将引导您完成Prism的多元逻辑回归实施过程。使用Prism 8.3.0添加逻辑回归
首先,从“欢迎”对话框创建新的多变量数据表
选择在多元变量数据表的教程数据集列表中找到的多元逻辑回归样本数据。
样本数据共有五列:“生存?”、“年龄(以年为单位)”、“男性?”、“头等舱?”、“二等舱?”。
这些数据代表皇家邮轮泰坦尼克号上的1,314位乘客,每行代表一位不同的乘客(请注意,该数据集不包含全体船员,且官方乘客人数因现有资料来源而异)。第一列“生存?”提供每位乘客的生存信息,1表示乘客生存,0表示乘客在轮船沉没时死亡。其他四列提供每位乘客的人口统计信息和所处票务舱。请注意,这四列中的三列也已编码(这些列中的所有值均为1或0)。以下给出有关此编码工作原理的简要说明。如需直接进行分析,请跳至“开始分析”
如上所述,将该数据集中的许多变量编码为1或0。在每种情况下,将列标题作为一个问题输入,对于给定的观察结果,1的存在意味着问题的答案是“是”,而对于观察结果,0的存在示意味着问题的答案是“否”。例如,我们可辨别上表第一行中乘客的一些信息。第一列中的0意味着乘客未生存、其年龄均为18岁,且第三列中的1表示乘客为男性。
但该乘客的船舱等级是什么?我们在第四列中可看到该乘客并不属于头等舱,在第五列中可看到该乘客并不属于二等舱(这两列均为0)。因此,我们可得出结论,该乘客必须属于三等舱(因为其并非头等舱或二等舱,而这三个是唯一可能性)。
当一个变量为分类变量时(生存/死亡、男性/女性、头等舱/二等舱/三等舱等),我们可在一个称为虚拟编码的过程中,将这些反应编码为一组0和1(还存在其他编码技术,但虚拟编码可能最易于理解)。使用虚拟编码,在具有两种结果(存活/死亡、男性/女性等)的变量中,最终使用一列进行编码。由于您可从单一列中获得所有的信息,因此您无需“男性?”一列和“女性?”一列。同样,在具有三个结果(头等舱/二等舱/三等舱)的变量中,最终使用两列进行编码。在此情况下,由于我们可根据另外两列的值辨别出该信息,因此我们无需“三等舱?”一列。事实上,如果您确实试图在逻辑回归模型中纳入“三等舱”一列,分析将会失败,原因是变量的线性相关性。
点击工具栏中的“多元逻辑回归”按钮(如下所示),或点击工具栏中的“分析”按钮,然后从可用的多元变量分析列表中选择“多元逻辑回归”。
点击“多元逻辑回归”按钮后,将出现针对此项分析的“参数”对话框。出于该演示目的,我们仅接受大多数默认选项。将在下文讨论这些默认选项的结果,但“多元逻辑回归参数”对话框的每个选项卡中还有更多可用选项。为使结果的解读更容易一些,我们将更改的是“阴性”和“阳性”结果的标签(即输入的反应为0或1意味着什么)。在“阴性结果”标签的空白处,输入“死亡”,在“阳性结果”标签的空白处,输入“生存”。
点击“确定”后,将进入主结果表(将在下一部分讨论)。
您将在结果表上看到的第一个是最佳拟合值估计值以及β0的标准误差和95%置信区间,以及模型中每个成分(主要效应或交互作用)的参数估计值。在此情况下,我们可得出截距(β0)和四个主要效应的参数估计值。
对这些参数的解读与线性回归略有不同,因为事实是逻辑回归对对数优势进行建模。确保您了解对数优势、优势和概率之间的关系。在尝试理解这些参数估计值之前。在该示例中,我们看到“男性”的估计值为-2.511,而“头等舱”的估计值为2.268。这意味着,如果一名乘客为男性(所有其他变量保持不变),他们的生存对数优势 减少 2.511,而如果一名乘客位于头等舱(所有其他变量保持不变),他们的生存对数优势 增加 2.268。
作为将结果视为对数优势的一种替代方法,Prism还报告了优势比及其95%的置信区间(在结果表下方报告)。
可点击此处获取有关优势比的更详细解释,但我们从每个变量(β1、β2、β3和β4)的优势比中得知,将该变量增加1,将成功的优势乘以 优势比的值。据报告,“年龄(以年为单位)”的优势比为0.9663。这意味着乘客每增长一岁,他们的生存优势就会增加0.9663倍。由于该优势比小于1,这意味着随着乘客年龄的增加,他们的生存优势实际上下降了(所有其他因素保持不变)。
另一个需要注意的点是,因为我们已对我们的某些变量使用了虚拟编码,这些优势比假设这些乘客处于某种“默认”或“参考”状态。例如,我们可以设置变量“男性?”、“头等舱?”和“二等舱?”等于零来研究年龄对生存优势的影响。然而,因为我们已使用了虚拟编码,我们实际上看到的是年龄对三等舱女性乘客生存优势的影响。假设我们确定了一名25岁的三等舱女乘客的生存优势。在此情况下,“男性”、“头等舱?”和“二等舱?”的值均为0,且结果优势将为1.402。我们知道,随后我们可迅速确定一名25岁的头等舱女乘客的生存优势(优势=1.402*9.656=13.538)。因此,在使用虚拟编码时,实际上我们从优势比中得知优势相对于参考案例如何改变。
如果您尚未读到概率与优势的关系,以下是其简述:
优势=成功概率/失败概率
由于“失败概率”等于“1-成功概率”,因此我们可将其表达为:
优势=(成功概率)/(1-成功概率)
例如,假设成功概率为75%,则优势计算方法如下:
优势=0.75/(1-0.75)=0.75/0.25=3
我们通常会说“优势为3:1”(大写“三比一”)。
默认情况下,参数估计的P值未在结果中给出,因此不会在此进行讨论。然而,您可以选择使用“多元逻辑回归参数”对话框的“选项”选项卡来显示这些值。您还会想了解如何解读这些值,如果您选择Prism报告它们。
多元逻辑回归结果的下一部分提供了许多有用的模型诊断,用于确定数据与所选模型的拟合程度。默认情况下,此处报告的两个值包括“仅截距模型”和“所选模型”的自由度和修正的Akaike信息标准(AICc)。这两种模型相当容易描述:
•仅截距模型:仅包含截距项β0的逻辑回归模型。该模型在预测结果时不使用任何自变量。因此,对每种情况均做出了相同的预测。
•所选模型:您选择用于拟合数据的逻辑回归模型
这一部分的结果实际上为您提供了一种方式,以确定您所选模型在拟合数据方面是否比仅截距模型做的更好。另一种说法是,您所选模型中的变量提供了有关观察数据的有用信息。确定哪个模型更好地拟合数据的方式是使用AICc。计算AICc的方式有点复杂,但这种情况下的解读相当简单:一个较小的AICc表示更优的模型拟合。仅截距模型的值为1746,我们所选模型的值为1235,我们可确定,我们所选模型在描述观察数据方面做的更好。
我们将要讨论的下一部分实际上不在“主要结果”选项卡上。在主要结果表的顶部,您将看到一个标题为“行预测”的选项卡。在点击该选项卡时,Prism将提供一个所有观察结果的预测概率完整列表,以及每个变量的完整信息:
该表提供了表中所有完整观察结果的预测概率。其中既包括拟合数据中的观察结果,亦包括输入的无Y值的观察结果。在该示例中,我们可以想象,假设乘客是一名男性,34岁,且有一张二等票。令人惊讶的是,在当前数据集中没有此类乘客。然而,我们可以在第1315行的原始表中为相应的变量输入该假设乘客的相应值,将“生存?”单元格留空。由于“生存”单元格为空白,因此将该行添加到表中不会影响逻辑回归的大多数结果。但Prism将为您显示该假设个体生存的预测概率。
我们从该结果中得知-基于其他1314名乘客的观察结果-我们新假设的乘客(34岁的男性,二等座票)只有18.8%的生存概率!
回到结果表的“表格结果”部分,结果的下一部分专门处理称为“ROC曲线”的内容。导航的“图表”部分提供了此项分析的ROC曲线,如下所示:
理解ROC曲线可能需要一些经验,但这些图最终会显示模型正确分类成功结果的能力与正确分类失败结果的能力之间的关系。模型对观察结果进行分类的方式是设定临界值。将任何大于该临界值的预测概率分类为1,将任何小于该临界值的预测概率分类为0。如果您设定的临界值极低,则几乎肯定可正确分类所有成功观察结果。正确分类成功观察结果的比例称为灵敏度,本文将灵敏度绘制在ROC曲线的Y轴上(Y值等于1表示成功结果完全正确分类,而Y值等于0表示成功结果完全错误分类)。
但如果临界值非常低,则也有可能 错误地 将许多失败也归类为成功。特异性是正确分类失败结果的比例,本文将“1-特异性”绘制在X轴上(因此X值等于0表示失败结果完全正确分类,而X值等于1表示失败结果完全错误分类)。
您可以想象一下,随着临界值的变化(从0到1),正确(和不正确)分类的成功和失败观察结果会此消彼长。ROC曲线显示了这种折中:随着灵敏度的提高,特异性必须降低(即,1-种特异性必须增加)。在该ROC曲线上的每个点,均代表一个不同临界值,及其对应的灵敏度和特异性值。
ROC曲线下面积(AUC)用于衡量拟合模型为成功/失败结果进行正确分类的能力。该值始终介于0到1之间,面积越大,意味着模型分类潜力越好。在本文案例中,(如下图所示的)ROC曲线的AUC为0.8889,该值与AUC的标准误差、95%置信区间和P值一同列在结果表内(零假设:AUC等于0.5)。阅读关于逻辑回归ROC曲线的更多信息,以获取更多信息和其中涉及的一些数学问题。
如先前部分所述,ROC曲线下面积考虑了每一个可能的临界值,以区分观察结果是否预测为“成功”或“失败”(即预测为1或0)。在结果的这一部分,使用单个临界值来生成结果表,该表提供观察的1和0的数量以及预测的1和0的数量。用于生成该表的默认临界值为0.5,但其可在多元逻辑回归参数对话框的“拟合优度”选项卡中手动更改。
下表包含临界值为0.5的结果:
从该表中,您可快速看到观察到的死亡总数(814)、观察到的生存总数(499)、预测的死亡总数(852)和预测的生存总数(461)。此外,该表提供了模型如何预测每个观察到的生存和死亡的细目,以及正确分类的观察到的生存和死亡的百分比。
最后,分类表提供了有关阴性和阳性预测能力的信息,这是可以评估模型性能的其他方法。
另一种量化逻辑回归模型对特定数据拟合程度的方式是使用称为“伪R平方值”的指标。重要的是,需立即注意到,尽管“R平方”可能以其名义使用,但这些指标无法仅以与线性和非线性回归的R平方相同的方式进行解读,而是提供关于模型拟合的不同类型的信息,并将采用0到1之间的值,较高的值表示模型对数据的更好拟合。
在Prism可计算的各种伪R平方值中,Tjur的R平方可以说是最容易解读的,且是默认情况下唯一报告的值。如需计算Tjur的R平方,找到观察到的成功的平均预测成功概率和观察到的失败的平均预测概率。然后计算这两个值之差的绝对值。所得结果即为Tjur R平方!接近1的值将表示观察到的0和观察到的1之间存在明显的分离,而接近0的Tjur的R平方将表示两组的平均预测成功概率几乎相同(即模型没有做好分离观察到的0和1的工作)。
另一种目视检查所选模型在预测成功和失败方面表现如何的方式是在默认情况下查看导航器图形部分中提供的预测图和观察图。我们的数据图表看起来如下:
该图表的解读相当容易。在该图表中,我们可以看到存在两个组(一个是生存的个体组,另一个是无生存的个体组)。我们也可以看到这两个组的预测概率分布。观察死亡个体组的小提琴图表,我们可以看到他们中的大多数人预测的生存概率远低于0.5(中值为0.1383且平均值为0.2411)。我们还可以看到,该模型在对观察到的生存者组进行分类时表现不佳。对于该组,我们看到预测概率分布更加均匀(中值为0.6564且平均值为0.6068)。当然,这些预测仅基于自变量(年龄、性别和服务类别),而忽略了实际结果。
如果我们点击返回结果表的“表格结果”选项卡,则可继续研究多元逻辑回归报告的其他结果。在默认情况下,结果的下一部分提供了Prism可检验模型与数据拟合程度的两种方式之一。这种检验称为Hosmer-Lemeshow检验,且其检验了所选模型是正确的零假设。该检验的细节有点复杂,但基于我们的数据,我们可能会选择拒绝该指定模型是正确的零假设。
鉴于该结果,我们可以选择调查可能影响生存概率的其他因素,且这些因素并未包括在我们最初的模型中。然而,非常重要的一点是要注意,Hosmer-Lemeshow检验已显示,对其计算方法的细微改变非常敏感,因此,其包括在Prism的结果中,主要作为一种用其他软件应用程序验证Prism中结论的方法。
一个较小的P值并不一定意味着您的模型本质上是“坏的”。毕竟,
“所有模型均错误,但有些有用……”
Prism通过多元逻辑回归提供的最终信息以数据汇总的形式给出,包括数据表中的行数、跳过的行数以及在分析中提供的观察数的两个值的差值。请注意,在我们的数据集中,表中有1314行(如果您添加了示例以供内插,则为1315行),但仅分析了1313行。该差值是由于一名(或多名)乘客未知结果(生存或死亡),因此在拟合模型时跳过了这些行的事实所致。
此外,在数据汇总中,1的总数和0的总数被指定为“生存数”和“死亡数”。最终,提供了三个比率:观察结果数量与参数数量的比率、生存数量与参数数量的比率以及死亡数量与参数数量的比率(对于逻辑回归,我们建议后两个比率至少应等于10)。