Please enable JavaScript to view this site.

在分类变量作为预测因子纳入回归模型中时,Prism会使用“虚拟编码”自动对该变量进行编码。该过程生成(在后台)了许多新变量,这些新变量等于原始分类变量级别数量减一。换言之,如果分类预测变量有5个唯一级别(例如,A、B、C、D和E),则虚拟编码将生成4个新变量。如果分类预测变量只有两个唯一级别(例如,男性和女性),则虚拟编码将仅生成一个新变量。以此方式,分类预测变量的每个级别(除一个级别外)均将获得用于回归分析的新变量。此外,计算得到的β系数用于每一个新变量。

但那些β系数代表什么呢?而没有得到新变量的水平呢?这些问题均与分类预测变量的参考水平的概念有关。

什么是参考水平

分类预测变量的参考水平通常视为给定变量观察到的“基线”或“正常”值。在虚拟编码的过程中,删除参考水平的变量,因为对于每个观察结果,它只包含“0”。相反,参考水平用作所生成的回归模型的说明方式。让我们用一个示例来明确说明这一点:

考虑一个模型,其中包括分类预测变量“性别”,水平为“男性”和“女性”。如果“男性”是我们的参考水平,那么预测模型将包括“女性”的β系数,但不包括“男性”的β系数。本案例中的“女性”β系数可以告诉我们,在所有其他变量保持不变的情况下,预计结果变量能够在男性和女性之间进行更改的优势比的程度。换言之,如果“女性”的β系数是2.513,那么(在其他变量保持不变的情况下),相比于男性,女性的结果变量具有预计大2.513的优势比。

如何指定参考水平

在“参考水平”选项卡上,回归模型中包含的每个分类预测变量将列在“定义参考水平”下。对于每个变量,您可以选择自动定义参考水平或手动定义水平。Prism提供了多种基于数据表中的数据自动指定参考水平的方法。这些方法包括:

第一级(默认)。这将选择数据表中变量的第一级。请注意,如果数据表中的行顺序发生变化,该参考水平也可能发生变化!

最后一级。这将选择数据表中变量的最后一级。请注意,如果数据表中的行顺序发生变化,该参考水平也可能发生变化!

最常见级。如果您希望回归系数提供少有水平与普通水平相比的信息,这是很好的选择。请注意,更改数据表中的行顺序不会导致此参考水平发生变化。然而,添加或删除数据可能会导致参考发生变化(通过改变每个水平的频率)

最不常见级。这将决定哪个是变量中的最常见级,并选择其作为参考。请注意,更改数据表中的行顺序不会导致此参考水平发生变化。然而,添加或删除数据可能会导致参考发生变化(通过改变每个水平的频率)

对于每一种自动方法,数据发生的某些变化(组织或添加/删除数据)可能会导致指定的参考水平发生变化。然而,如果您希望Prism自动确定参考水平,但为防止它随着数据的变化而变化,您可以使用复选框“当数据发生变化时重新计算自动参考水平”。

最后,您也可以选择通过选择第一个下拉菜单中的“自定义…”以及选择第二个下拉菜单中的所需水平来指定自定义参考水平。

更改分类变量水平在结果中的顺序

在生成回归分析的结果输出时,Prism将按照分类预测变量在数据表中出现的顺序显示它们的水平。然而,出于演示或发表目的,有时更改回归模型中一个或多个特定分类预测变量的水平顺序可能有用。“定义参考水平”部分中的“顺序”按钮允许您分别自定义每个分类变量的水平顺序。“定义分类顺序”子菜单中的控件允许您:

将分类变量的参考水平设置为当前选定水平

手动重新对水平进行排序(顶部、向上、反向、向下和底部控件)

使用三种默认方法之一对水平进行重新排序:

o可视顺序:水平首次出现在数据表中的顺序

o频率:频率较高的水平在顺序中位置较高

o辞典编纂:使用辞典编纂的顺序来排列顺序。类似于字母顺序,但请注意,名为“a100”的水平将排在“a90”之前,因为“1”在“9”之前。该顺序不考虑整个数字“100”大于整个数字“90”的事实

如果输入数据发生变化,参考水平会发生什么变化?

默认情况下,分类变量的参考水平被选为数据表中该变量的第一级。Prism还提供了其他自动选择,包括“最后一级”、“最常见级”和“最不常见级”。然而,如果输入数据发生变化(或者如果附加数据添加到输入数据表),一些自动选择也可能发生变化。为确保输入数据发生变化或添加额外数据时指定的参考水平不会发生变化,请取消选中“数据发生变化时重新计算自动参考水平”旁边的对话框,或使用适当的下拉菜单将单个参考水平设置为“自定义...”。

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.