参数 β0 的单位与 Y 值(结果变量)相同。
其他拟合优度参数的单位是 Y 变量的单位除以相应 X 变量的单位。
再看一下本示例模型:
血压 ~ 截距 + 年龄 + 体重 + 性别
以及它的数学形式
血压 = β0 + β1* 年龄 + β2* 体重 + β3* 性别[男]
在该模型中,β0 是模型截距的估计值,用 Y 变异性(即毫米汞柱)的单位表示。它是当所有连续预测变量等于零且所有分类预测变量设置为参考水平时 Y 的预测值。对于本示例(以及许多其他示例)来说,这有点傻,因为它将是年龄=0、体重=0 时女性的平均血压(假设性别的参考水平为 "女性")!在这种情况下,最好将其视为模型中的一个常数。不过,在通过插入法使用预测因子变量的不同(非零)值预测结果变量值时,这个常数就非常重要了。
如果血压的测量单位是毫米汞柱,而年龄的测量单位是岁,那么变量 β1 的单位就是毫米汞柱/年。这是在校正性别和体重差异后,年龄每增加一岁,血压平均增加的数值。
如果体重以公斤为单位,则 β2 的单位为毫米汞柱/公斤。这是在对年龄和性别差异进行调整后,体重每增加一公斤,血压增加的平均值。
性别是一个没有单位的分类预测因子变量。Prism 会自动对分类变量进行编码以便在回归中使用,在进行虚拟编码时还会选择一个默认参 考水平(可以使用回归对话框的 "参考水平 "选项卡更改该默认参考水平)。在本例中,参考水平为 "女性",因此女性的编码为 0,男性的编码为 1。它是在考虑年龄和体重差异后,男女之间血压的平均差异。
在 Prism 生成的结果中,您可以看出分类变量的哪个水平是参考水平,因为它是唯一没有给出参数估计的水平。
要真正知道模型中参数的拟合优度值,唯一的方法就是收集无限量的数据。由于无法做到这一点,Prism 报告的拟合优度值会部分受到挑选受试者时随机变异性的影响。Prism 将这种不确定性报告为每个参数的 95% 置信区间。这些置信区间考虑了研究中的受试者人数,以及数据与模型预测值的差异。如果分析假设成立,您可以 95% 地确定参数的真实拟合优度值在置信区间内。
Prism 还会显示模型中每个参数的标准误差。这些很难解读,但用于计算每个系数的 t 统计量和 95% 置信区间。Prism 显示这些数据,以便将其结果与其他程序的结果进行比较。
Prism 还会报告每个参数的 t 统计量绝对值,计算方法是参数值除以其标准误差。对于泊松回归,Prism 报告的是 z 的绝对值。
95% 置信区间是参数的标准误差乘以临界 t 比率,根据样本量确定一个常数,并将此乘积与估计值相加或相减。
当回归模型中包含分类预测因子变量时,Prism 会自动使用 "虚拟编码 "对该变量进行编码。这一过程(在幕后)生成的新变量数量等于原始分类变量的级数减一。换句话说,如果一个分类预测因子变量有 5 个独特的级别(例如 A、B、C、D 和 E),虚拟编码将生成 4 个新变量。如果一个分类预测因子变量只有两个独特的层级(例如男性和女性),虚拟编码只会产生一个新变量。这样,除一个变量外,分类预测变量的每个层次都会得到一个新变量,并用于回归分析。此外,每个新变量都会有一个贝塔系数估计值。没有 获得新变量或回归系数的水平为参考水平。
这些参数估计值(系数)会在回归分析的表格结果中列出分类变量的每个水平。要知道哪个系数属于每个独立水平相对比较简单,因为变量名将以 "Variable[Level](变异性[水平])"的形式出现。本示例中,在变量 "性别 "中,系数 β3 将对应于 "性别[女性]",表示在考虑年龄和体重差异后,女性的平均血压比男性高多少(或低多少)。