2 min read

两步回归法的推断错误与解决方案

在实证研究中,“两步回归法” 是研究者分析变量 “异常成分” 的常用工具 —— 先通过 OLS 将总变量分解为 “正常部分”(预测值)与 “异常部分”(残差),再以残差为因变量回归感兴趣变量(VOI)。但 Chen、Hribar 与 Melessa(2018)在《Incorrect Inferences When Using Residuals as Dependent Variables》中指出,这种看似常规的方法实则暗藏陷阱,可能导致严重的推断错误。

一、两步回归法:流行却有缺陷的研究工具

两步回归法的核心逻辑看似直观:

  1. 第一步(分解变量):通过 OLS 将总变量拆分为 “正常成分”(EXPLAINED_Y,预测值)与 “异常成分”(UNEXPLAINED_Y,残差),公式为:$ \text{TOTAL}_Y = \text{EXPLAINED}_Y + \text{UNEXPLAINED}_Y $

  2. 第二步(残差回归):以残差为因变量,检验 VOI 对异常成分的影响,含控制变量的公式为:$ \text{UNEXPLAINED}_Y = \beta_0 + \beta1 \text{VOI} + \sum{k=2}^{K} \beta_k \text{CONTROLS} + \varepsilon_i $

根据 Chen 等人(2018)的调查,2011-2015 年 5 本顶刊中,有 61 篇研究使用该方法,涉及多个研究主题。但问题在于:多数研究未将第一步回归变量纳入第二步,误以为残差与第一步变量 “正交” 无需控制 —— 这正是偏差的根源(Chen et al., 2018)。

二、看不见的偏差:从系数偏移到错误推断

Chen 等人(2018)通过 Frisch–Waugh–Lovell 定理证明,两步回归法的偏差源于 “未控制变量间协方差”,偏差大小取决于三步变量的相关性:第一步变量($x_1$)、VOI($x_2$)、第二步控制变量($x_3$)。

1. 偏差的两种典型表现

  • 衰减偏差:当$x_1$与$x_2$相关,且第二步无控制变量时,错误两步法的系数$ \check{\beta}_2 = \frac{\text{Cov}(x_2, \tilde{u})}{\text{Var}(x_2)} $会向零偏移 —— 因正确单步法系数$ \hat{\beta}_2 = \frac{\text{Cov}(x_2, \tilde{u})}{\text{Var}(r_2)} $($r_2$为$x_2$对$x_1$的残差),而$ \text{Var}(x_2) > \text{Var}(r_2) $(Chen et al., 2018)。

  • 方向不确定偏差:当$x_1$与$x_3$相关(最常见场景),偏差可能从 “衰减” 变为 “膨胀” 甚至 “符号反转”。例如,当$R_{13}^2=0.2$($x_3$对$x_1$的$R^2$)、$R_1^2=45%$、$R_2^2=45%$时,系数符号会完全反转($ \pi_c=1.5835 $)(Chen et al., 2018)。

2. 错误推断:Type I 与 Type II 错误

偏差最终导致两种统计错误,对应实证研究的 “假阳性” 与 “假阴性”:

  • Type I 错误(假阳性 / FP):实际原假设$H_0$为真(VOI 与残差无关联),却错误拒绝$H_0$(误判显著)。

  • Type II 错误(假阴性 / FN):实际$H_0$为假(VOI 与残差有关联),却错误接受$H_0$(误判不显著)。Chen 等人(2018)发现,该错误在部分场景中虽未改变推断,但系数平均偏差达 18%(9%-29%)。

三、三种无偏差解决方案

针对两步回归法的缺陷,Chen 等人(2018)提出三种简洁有效的解决方案,核心均为 “充分控制变量协方差”:

1. 核心方案:单步回归(首选)

直接将 “第一步变量 + 第二步变量(VOI + 控制变量)” 纳入同一回归,公式为:$ \text{TOTAL}_Y = \gamma_0 + \gamma_1 \text{VOI} + \gamma_2 x_1 + \gamma_3 \text{CONTROLS} + \mu_i $

若第一步按特定条件回归,需加入相关虚拟变量及交互项,确保与第一步残差逻辑一致(Chen et al., 2018)。

2. 等效两步法 1(基于 Frisch–Waugh–Lovell 定理)

步骤为:① 回归$ \text{TOTAL}_Y \to x_1 $得残差$ \tilde{u} $;② 回归$ \text{VOI} \to x_1 $得残差$ r_2 $、$ \text{CONTROLS} \to x_1 $得残差$ r_3 $;③ 回归$ \tilde{u} \to r_2 + r_3 $,结果与单步回归完全一致(Chen et al., 2018)。

3. 等效两步法 2:补充第一步变量

第二步回归中直接纳入所有第一步变量,公式为:$ \text{UNEXPLAINED}_Y = \alpha_0 + \alpha_1 \text{VOI} + \alpha_2 x_1 + \alpha_3 \text{CONTROLS} + \gamma_i $

仅标准误因自由度略有差异,系数无偏差(Chen et al., 2018)。

四、对研究者的启示

Chen 等人(2018)的研究并非否定 “分析变量异常成分” 的价值,而是指出两步回归法的计量缺陷:该方法无充分依据,且在多数场景会产生错误推断。对研究者而言,需:

  1. 优先采用单步回归,避免默认使用两步法;

  2. 解读过往文献时,需警惕 “第一步与第二步变量相关” 的研究结果;

  3. 单步回归不免除原有控制需求 (Chen et al., 2018)。

在实证研究追求 “因果识别” 与 “结果可靠” 的当下,识别这类 “隐形陷阱”,正是提升研究质量的关键一步。

参考文献

Chen, W., Hribar, P., & Melessa, S. (2018). Incorrect inferences when using residuals as dependent variables. Journal of Accounting Research, https://doi.org/10.1111/1475-679X.12195