Please enable JavaScript to view this site.

当分类预测变量作为预测因子包含在回归模型中时,Prism 会自动使用 "变异性虚拟编码"对该变量进行编码。这一过程(在幕后)生成的新变量数量等于原始分类变量的级数减一。本示例中,如果一个分类变量有五个独特的级别(A、B、C、D 和 E),虚拟编码将生成四个新变量。如果一个分类变量只有两个独特的级别(例如男性和女性),虚拟编码只会产生一个变异性变量。这样,分类预测因子变量的每个层次--除了一个--都会得到一个新变量,用于回归分析。此外,每个新变量都会计算出一个贝塔回归系数。

但这些贝塔系数代表什么呢?没有得到新变异性的水平又如何呢?这些问题都与分类预测因子变量的参考水平概念有关。

什么是参考水平?

分类预测因子变量的参考水平通常被认为是给定变量的 "基线 "或 "通常 "观察值。在虚拟编码过程中,参考水平的变异性会被省略,因为每个观测值都会包含 "0"。相反,参考水平被用作解读生成的回归模型的一种手段。让我们用一个本示例来说明这一点:

考虑一个包含分类预测因子 "性别"的模型,其水平为 "男性"和 "女性"。如果 "男性"是我们的参考水平,那么预测模型将包括 "女性"的贝塔系数(和风险比),但不包括 "男性 "的贝塔系数(和风险比)。在这种情况下,"女性"的风险比率告诉我们,在所有其他变量不变的情况下,女性的风险比率是男性的多少倍。换句话说,如果 "女性"的风险比是 3.658,那么女性的预期风险率就是男性的 3.658 倍。请注意,这种解读也可以直接应用于参数估计值(贝塔系数),但 "对数风险"的概念并不是很直观,因此在解读这些值时,我们通常会直接使用风险比(等于 exp(beta))而不是贝塔系数。

如何指定参考水平

在 "参考水平"选项卡上,"定义参考水平"下将列出回归模型中包含的每个分类预测因子变 量。对于每个变异性变量,您可以选择让 Prism 自动定义参考水平(基于指定的规则)或手动定义一个水平。自动指定参考水平时,Prism 可以使用多种规则,包括

第一级(默认)。Prism 将选择数据表中变量的第一级。请注意,如果数据表中行的顺序发生变化,参考层也会随之变化!

最后一级。Prism 将选择数据表中变量的最后一级。请注意,如果数据表中行的顺序发生变化,该参考层级也会发生变化!

最常出现的层级。Prism 将确定变量中出现频率最高的层级,并将其作为参考层级。如果您希望回归系数能提供罕见水平与常见水平相比的影响信息,则可以使用此方法。请注意,更改数据表中行的顺序不会导致参考水平发生变化。但是,添加或删除数据可能会导致参考水平发生变化(通过改变每个水平的频率)。

出现频率最低的层级。Prism 将确定变量中出现频率最低的层级,并将其作为参考层级。请注意,改变数据表中行的顺序不会导致参考水平发生变化。但是,添加或删除数据可能会导致参考水平发生变化(通过改变每个水平的频率)。

对于上述用于指示 Prism 应如何自动选择参考层的每条规则,对数据的某些更改(组织或添加/删除 数据)可能会导致自动选择的参考层发生变化。本示例中,如果您选择了供 Prism 使用的 "最后层级 "规则,并在表格底部添加了新的数据行,那么数据表中的 "最后层级 "可能会发生变化!在 "参考电平 "选项卡底部附近有一个复选框,用于 "在数据更改时重新计算自动参考电平"。默认情况下,该复选框已被选中。但是,如果您想确保在更新数据时参考水平不发生变化,可以取消选中该复选框。取消选中后,您仍可以使用规则让 Prism 检查相应的级别,但一旦点击 "确定",数据的更改将不会导致指定的参考级别发生任何变化(在您打开 "参考级别 "选项卡并重新指定规则之前,Prism 不会 "重新检查")。

最后,您还可以选择指定自定义参考水平,方法是在第一个下拉菜单中选择 "自定义...", 然后在第二个下拉菜单中选择所需的水平。

更改结果中分类变量水平的顺序

在生成回归分析结果输出时,Prism 会按照分类预测因子变量在数据表中出现的顺序显示它们的 级别。不过,为了便于演示或发表,有时可能需要更改回归模型中一个或多个特异性分类预测变量的 级别顺序。通过 "定义参考水平 "部分的 "顺序 "按钮,可以分别自定义每个分类变量的水平顺序。通过 "定义类别顺序 "子菜单中的控件,您可以

将分类变量的参考层级设置为当前选择的层级

手动重新排列层级(顶部、上部、反向、下部和底部控件)

使用三种默认方法之一重新排列层级:

视觉顺序:各层次在数据表中首次出现的顺序

频率:频率越高的级别在顺序中出现的越靠前

词典顺序:使用词典顺序排列。类似于字母顺序,但请注意,名为 "a100"的数据级将排序在 "a90"之前,因为 "1 "在 "9 "之前。这种排序不考虑整个数字 "100 "大于整个数字 "90"的情况。

如果输入数据发生变化,参考水平会发生什么变化?

默认情况下,分类变量的参考水平被选择为数据表中该变量的第一个水平。Prism 还提供其他自动选择,包括 "最后一级"、"最频繁级 "和 "最不频繁级"。但是,如果输入数据发生变化(或输入数据表中添加了其他数据),这些自动选择中的某些也会发生变化。要确保在输入数据更改或添加附加数据时指定的参考水平不会更改,可以取消选中 "数据 更改时重新计算自动参考水平 "旁边的复选框,或者使用相应的下拉菜单将各个参考水平集 设为 "自定义..."。

© 1995-2019 GraphPad Software, LLC. All rights reserved.