Please enable JavaScript to view this site.

本指南将引导您完成Prism的简单逻辑回归实施过程。使用Prism 8.3.0添加逻辑回归

数据

首先,从“欢迎”对话框创建新的XY数据表

本引导过程将使用示例文件的“相关性与回归”部分中给出的简单逻辑回归示例数据。如需使用此数据,请点击列表中的“简单逻辑回归”,然后点击“创建”。然后,您将看到一组数据以及两列:其中X列为“学习小时数”,Y列为“是否通过测试?”。

该数据代表125名学生的集合、其为准备测试所花费的时间以及测试结果:学生通过(在数据表中输入1)或未通过(在数据表中输入0)测试?

开始分析

如需对该数据集进行简单逻辑回归,请点击工具栏中的“简单逻辑回归”按钮(如下所示)。或者,您可点击工具栏中的“分析”按钮,然后从可用XY分析列表中选择“简单逻辑回归”。

“分析”对话框

点击“简单逻辑回归”按钮后,将出现针对此项分析的“参数”对话框。本引导过程无需更改任何默认选项。下面讨论了其中一些选项的结果,但这些选项的附加信息可点击此处获取

点击“确定”后,将进入主结果表(将在下一部分讨论)。

简单逻辑回归结果

参数估计

结果表最先显示的是β0β1的估计最佳拟合值,及其标准误差和95%置信区间。

基于这些参数与“对数优势”的关系,有时分别将这些参数称为“截距”和“斜率”。

优势比

由于很难直接解读β0β1,因此通常转向解读优势比及其95%的置信区间(在结果表的更下部显示)

可点击此处获取有关优势比的更详细解释,但我们从β1的优势比得知,X加1等于成功优势乘以β1的值。以这些结果中的数值为例。请谨记,X代表学习小时数。因此,从等于3.934的优势比得知,每多学习一个小时,我们通过测试的优势几乎可以乘以4!

如果您尚未读到概率与优势的关系,以下是其简述:

优势=成功概率/失败概率

由于“失败概率”等于“1-成功概率”,因此我们可将其表达为:

优势=(成功概率)/(1-成功概率)

例如,假设成功概率为75%,则优势计算方法如下:

优势=0.75/(1-0.75)=0.75/0.25=3

我们通常会说“优势为3:1”(大写“三比一”)。

50%时的X

Prism简单逻辑回归报告的另一个关键值是预测成功概率为50%(或0.5)时的X值。有趣的是,通过使用我们上述给出的优势公式,我们发现当概率为50%时,优势等于1(亦称为“成败优势相等”)。在我们的案例中,50%时的X值为3.37,这意味着已学习3.37个小时的学生通过测试的优势为1:1(通过概率为50%..不太好!)。

如果我们将此结果与优势比结合,则学生每多学习一个小时,我们即可很快确定通过的优势和概率。请记住,我们从Prism报告的优势比得知,当X每增加1,优势会乘以多少。我们知道当X为3.37时,优势为1,优势比为3.934。因此,X增加1,即从3.37增至4.37,我们便可获得1*3.934的新优势,即3.934。这是针对已学习4.37个小时(仅多一小时)的学生预测的通过优势。

将这种优势转换成概率的方法非常简单:

优势=3.934=(成功概率)/(1-成功概率)

3.934*(1-成功概率)=成功概率

3.934-3.934*(成功概率)=成功概率

3.934=成功概率+3.934*(成功概率)

3.934=(成功概率)*(1+3.934)

3.934=(成功概率)*4.934

成功概率=3.934/4.934

成功概率=0.797或79.7%

逻辑回归曲线

我们暂时脱离结果表,来看一下逻辑回归为我们的数据绘制的曲线。该图(如下所示)证实了我们在前面几部分中提出的一些观察结果:

该图所示曲线描绘了通过测试的预测概率(Y)与学习小时数(X)之间的函数关系。正如我们所讨论,很容易观察到,当学习时间为3.37小时,那么预测通过测试的概率为50%:

我们亦可从该图中证实我们关于优势比的说法。我们可看到,当学习时间增加一个小时(共达到4.37小时)时,预测通过测试的概率提高至80%左右:

事实上,您可用这条曲线确定在任何给定学习时间内通过测试的预测概率。下一部分讨论如何确定任何输入X值的预测概率

行预测

我们回到简单逻辑回归的主结果表,在顶部看到标题为“行预测”的表选项卡。点击此选项卡时,Prism将提供所有输入的X值的预测概率的完整列表:

该表提供了数据表中所有X值的预测概率。其中既包括拟合数据中的X值,亦包括输入的无Y值的单个X值。例如,您想知道在该给定模型中,5.7小时学习时间的通过测试的概率。该数据集中的125名学生均未学习5.7个小时,但返回至原始数据表,您可在X列底部输入5.7(无相关Y值),然后返回“行分类”表:

基于125名学生的观察结果,该结果告诉我们:如果新学生针对同一测试学习了5.7个小时,则其通过测试的概率将达到96.1%!

假设检验

如果我们点击返回结果表的“表格结果”选项卡,则可继续研究简单逻辑回归报告的其他结果。结果的下一部分提供了测试模型与数据拟合程度的两种不同方法。虽然这些测试非常相似,但必须理解这些测试各自的工作方式,以及每项测试解读结果所基于的假设。

基于数据结果,我们得出如下结论:学习效果(由系数β1给出)肯定为非零;换言之,学习时间对通过测试的概率有明确影响。

ROC曲线和ROC曲线下面积

结果的下一部分专门论述了“ROC曲线”。导航的“图表”部分提供了此项分析的ROC曲线,如下所示:

理解ROC曲线可能需要一些经验,但这些图最终会显示模型正确分类成功结果的能力与正确分类失败结果的能力之间的关系。模型对观察结果进行分类的方式是设定临界值。将任何大于该临界值的预测概率分类为1,将任何小于该临界值的预测概率分类为0。如果您设定的临界值极低,则几乎肯定可正确分类所有成功观察结果。正确分类成功观察结果的比例称为灵敏度,本文将灵敏度绘制在ROC曲线的Y轴上(Y值等于1表示成功结果完全正确分类,而Y值等于0表示成功结果完全错误分类)。

然而,如果使用极低的临界值,则可能会造成大量失败结果错误分类为成功结果。特异性是正确分类失败结果的比例,本文将“1-特异性”绘制在X轴上(因此X值等于0表示失败结果完全正确分类,而X值等于1表示失败结果完全错误分类)。

您可以想象一下,随着临界值的变化(从0到1),正确(和不正确)分类的成功和失败观察结果会此消彼长。ROC曲线显示了这种此消彼长:随着灵敏度的提高,特异性必然降低(即1 - 特异性必然升高)。在该ROC曲线上的每个点,均代表一个不同临界值,及其对应的灵敏度和特异性值。

ROC曲线下面积(AUC)用于衡量拟合模型为成功/失败结果进行正确分类的能力。该值始终介于0到1之间,面积越大,意味着模型分类潜力越好。在本文案例中,(如下图所示的)ROC曲线的AUC为0.8889,该值与AUC的标准误差、95%置信区间和P值一同列在结果表内(零假设:AUC等于0.5)。如需以了解关于逻辑回归ROC曲线的更多信息,以及其中涉及的部分数学问题,请继续阅读。

拟合优度和其他模型详情

在计算结果的最后部分,Prism提供了一些试图总结模型对给定数据拟合程度的额外指标。前两个指标是Tjur R平方和Cox-Snell R平方,虽然称为“R平方”,但不能简单地以与解读线性和非线性回归的R平方相同的方式来解读这些指标。相反,这些值称为伪R平方值,其能够提供不同类型模型拟合的相关信息。对于这些指标,计算值将介于0至1之间,较高值表示模型与数据的拟合更优。

在所提供的两个伪R平方值中,Tjur R平方更加容易计算和解读:找出成功观察结果的平均预测成功概率和失败观察结果的平均预测概率。然后计算这两个值之差的绝对值。所得结果即为Tjur R平方!

Prism报告的最后一个指标为模型偏差。该值需要进行简单逻辑回归报告中迄今最难的指标计算之一,因此不再在此处进行解释。但该指标提供了一个数值估计,用于估计模型(使用前面在结果中给出的参数)产生观察数据的“可能性”。这听起来让人费解,但此处的关键在于如果您比较多个模型来描述相同数据,则较小的模型偏差值表示模型拟合更佳(模型偏差不能是负值,偏差等于零表示模型与数据完全拟合)。

方程和数据汇总

Prism简单逻辑回归提供的最后一条信息包括模型方程(以对数优势方式给出)以及数据汇总,包括数据表中的行数、跳过行数以及这两个值的差值(得出分析中的观察结果数)。此外,在数据汇总中,还给出1和0的总数。最后,给出以下三个比率:观察结果数量与参数数量的比率、1数量与参数数量的比率以及0数量与参数数量的比率(对于逻辑回归,我们建议后两个比率至少应等于10)。

© 1995-2019 GraphPad Software, LLC. All rights reserved.