Please enable JavaScript to view this site.

本指南将指导您使用 Prism 执行简单逻辑回归。逻辑回归是 Prism 8.3.0 新增的功能

数据

首先,我们要在欢迎对话框中创建一个新的 XY 数据表。

在本教程中,我们将使用示例文件中 "相关与回归"部分的简单逻辑回归示例数据。要使用该数据,请单击列表中的 "简单逻辑回归",然后单击 "创建"。然后,您将看到一组数据,其中有两列:X 列为 "学习时数",Y 列为 "通过测试"?

这些数据代表了 125 个学生的集合,以及他们准备考试所花费的时间和考试结果:学生是通过了考试(在数据表中输入 1),还是没有通过考试(在数据表中输入 0)?

开始分析

要对该数据集进行简单逻辑回归,请单击工具栏中的简单逻辑回归按钮(如下图所示)。或者,您也可以单击工具栏上的 "分析 "按钮,然后从可用的 XY 分析列表中选择 "简单逻辑回归"。

分析对话框

单击简单逻辑回归按钮后,将出现该分析的参数对话框。在本教程中,我们不需要更改任何默认选项。下文将讨论其中一些选项的结果,也可以在此处找到这些选项的其他信息

点击 "确定"后,将进入主结果表,下一节将讨论该表。

简单逻辑回归结果

参数估计

在结果表单上首先看到的是β0 和β1 的拟合优度值估计值以及标准误差和 95% 置信区间。

根据它们与 "对数几率"的关系,这些参数有时分别称为 "截距"和 "斜率"。

优势比

由于很难直接解读β0和 β1,因此通常会参考优势比及其 95% 置信区间(在结果表的较远处报告)。

关于优势比的更详细解释可以在这里找到,但β1的优势比告诉我们的是,X 增加 1,成功的几率就会乘以β1 的值。以这些结果中的数值为例。回顾一下,X 代表学习的小时数。因此,3.934 的优势比告诉我们,每增加一小时的学习时间,通过考试的几率就会增加近 4 倍!

如果您还没有读过概率和几率的关系,这里有一个快速总结:

几率 = 成功概率/失败概率

由于失败的概率仅为 1 - 成功的概率,我们可以将其写为

几率 = (成功概率)/(1 - 成功概率)

本示例中,假设成功概率为 75%,那么几率的计算公式为

几率 = 0.75/(1 - 0.75) = 0.75/0.25 = 3

通常,我们会说 "几率是 3:1"(读作 "三比一")。

X 为 50%

Prism 报告简单逻辑回归的另一个关键值是预测成功概率为 50%(或 0.5)时的 X 值。有趣的是,利用上面给出的几率方程,我们可以看到当概率为 50%时,几率等于 1(也称为 "偶数几率")。在我们的案例中,50% 时 X 的值是 3.37,也就是说,对于那些学习了 3.37 小时的学生来说,通过检验的几率是 1:1(通过的概率是 50%。......不大好!)。

如果我们把这个结果与优势比结合起来,就可以很快确定如果学生多学习一小时,通过的几率和概率。 我们知道,当 X 为 3.37 时,优势比为 1,而优势比为 3.934。因此,将 X 增加 1,从 3.37 增加到 4.37,我们就得到了新的几率 1*3.934,也就是 3.934。这就是学习 4.37 小时(仅多一小时)的学生的预测及格几率。

将几率转换成概率也很容易:

几率 = 3.934 = (成功概率)/(1 - 成功概率)

3.934*(1 - 成功概率) = 成功概率

3.934 - 3.934*(成功概率)= 成功概率

3.934 = 成功概率 + 3.934*(成功概率)

3.934 = (成功概率)*(1 + 3.934)

3.934 = (成功概率)*4.934

成功概率 = 3.934/4.934

成功概率 = 0.797 或 79.7

逻辑回归曲线

如果我们暂时离开结果表,就可以看看逻辑回归为我们的数据绘制的曲线。这张图(如下所示)证实了我们在前面章节中的一些观察结果:

这张图上的曲线绘制了通过测试的预测概率(Y)与学习时数(X)的函数关系。正如我们讨论过的,我们很快就可以看到,学习时间为 3.37 小时时,预测通过考试的概率为 50%:

我们还可以从这张图中证实我们关于优势比的说法。我们可以看到,将学习时间增加一小时(总共增加到 4.37 小时),预测通过考试的概率就会增加到 ~80%:

事实上,您可以利用这条曲线来确定在任何给定的学习时间内通过考试的预测概率。下一节将讨论如何确定任何输入的 X 值的预测概率

行预测

如果我们切换回简单逻辑回归的主结果表,您会在顶部看到一个名为 "行预测 "的表页选项卡。点击该选项卡后,Prism 将提供所有输入 X 值的预测概率的完整列表:

该表提供了数据表中所有 X 值的预测概率。这既包括拟合值的数据中的 X 值,也包括不带 Y 值的单独输入的 X 值。本示例举例说明,在学习时间为 5.7 小时的情况下,您想知道通过考试的概率。在这个数据集的 125 名学生中,没有人学习 5.7 小时,但回到原始数据表,您可以在 X 列的底部输入 5.7(没有相关的 Y 值),然后返回行分类表:

这一结果告诉我们--根据对 125 名学生的观察--如果一名新生学习 5.7 个小时参加同样的考试,他们通过的概率将达到 96.1%!

假设检验

如果我们点击回到结果表的 "表格结果 "选项卡,就可以继续研究简单逻辑回归所报告的其他结果。结果的下一部分提供了两种不同的方法来检验模型与数据的拟合程度。虽然这些测试方法很相似,但了解它们各自的工作原理以及各自测试的假设对解读结果很重要。

根据给出的数据结果,我们可以得出结论:学习效果(由系数β1 表示)肯定不为零;换句话说,学习时间对通过测试的概率有一定的影响。

ROC 曲线和 ROC 曲线下面积

结果的下一部分专门讨论 ROC 曲线。本分析的 ROC 曲线在导航器的 "图表"部分提供,看起来像这样:

理解 ROC 曲线需要一些经验,但这些图表最终向您展示的是模型正确分类成功的能力与正确分类失败的能力之间的关系。模型对观察值进行分类的方法是设置一个临界值。任何大于这个临界值的预测概率都会被归类为 1,而任何小于这个临界值的预测概率都会被归类为 0。如果你设置了一个非常低的临界值,你几乎肯定会将所有观测到的成功概率都正确归类。观察值被正确分类的比例被称为灵敏度,并绘制在 ROC 曲线的 Y 轴上(Y 值为 1 代表成功的完美分类,Y 值为 0 代表成功的完全错误分类)。

不过,如果截断值很低,您也可能会将许多失败的结果错误地归类为成功。特异性是指正确分类失败的比例,"1-特异性"绘制在 X 轴上(因此,X 值为 0 代表完全分类失败,X 值为 1 代表完全错误分类失败)。

可以想象,随着分界点的变化(从 0 到 1),观察到的成功和失败的正确(和错误)分类将有所权衡。这种权衡就是 ROC 曲线所显示的:随着灵敏度的增加,特异性必然降低(即 1-特异性必然增加)。这条 ROC 曲线上的每一点都代表一个不同的临界值,并具有相应的灵敏度和特异性。

ROC 曲线下面积(AUC)是衡量拟合模型正确划分成功/失败的程度。该值始终介于 0 和 1 之间,面积越大,代表模型的分类潜力越大。在我们的案例中,ROC 曲线(如下图所示)的 AUC 为 0.8889,结果表中列出了 AUC 的标准误差、95% 置信区间和 P 值(零假设:AUC 为 0.5)。阅读更多有关逻辑回归 ROC 曲线的信息,了解更多相关信息和部分数学知识。

拟合优度和其他模型细节

在计算结果的最后一部分,Prism 提供了一些附加指标,试图总结模型与给定数据的拟合程度。其中前两个指标是 Tjur's R 平方和 Cox-Snell's R 平方,虽然名称中可能有 "R 平方",但这些指标根本无法像线性和非线性回归的 R 平方那样进行解读。相反,这些值被称为伪 R 平方值,提供了关于模型拟合的不同信息。对于这些指标,计算值将介于 0 和 1 之间,数值越高,表明模型与数据的拟合值越好。

在提供的两个伪 R 平方值中,Tjur 的 R 平方更容易计算和解读:找出观察到的成功的平均预测概率和观察到的失败的平均预测概率。然后计算这两个值之差的绝对值。这就是特优尔 R 平方!

Prism 报告的最后一个指标是模型偏差。这个值是迄今为止简单逻辑回归报告的指标中最难计算的一个,因此这里不做解释。不过,这个指标提供了一个数值估计,即模型(使用结果中前面给出的参数)产生观察数据的 "可能性"有多大。听起来有些混乱,但这里的关键是,如果您要比较多个模型来描述相同的数据,模型偏差值越小,表示模型拟合值越好 (模型偏差不能为负值,偏差为零表示模型与数据完全拟合)。

方程和数据汇总

Prism 从简单逻辑回归中提供的最后几项信息包括模型方程(以几率对数表示)和数据摘要,其中包括数据表中的行数、跳过的行数以及这两个值的差值即分析中的观察值。此外,数据摘要中还给出了 1 的总数和 0 的总数。最后,还提供了三个比率:观察数与参数数的比率、1 与参数数的比率、0 与参数数的比率(我们建议逻辑回归的后两个比率至少为 10)。

© 1995-2019 GraphPad Software, LLC. All rights reserved.