两步回归法的推断错误与解决方案

在实证研究中，“两步回归法” 是研究者分析变量 “异常成分” 的常用工具 —— 先通过 OLS 将总变量分解为 “正常部分”（预测值）与 “异常部分”（残差），再以残差为因变量回归感兴趣变量（VOI）。但 Chen、Hribar 与 Melessa（2018）在《Incorrect Inferences When Using Residuals as Dependent Variables》中指出，这种看似常规的方法实则暗藏陷阱，可能导致严重的推断错误。

一、两步回归法：流行却有缺陷的研究工具

两步回归法的核心逻辑看似直观：

第一步（分解变量）：通过 OLS 将总变量拆分为 “正常成分”（EXPLAINED_Y，预测值）与 “异常成分”（UNEXPLAINED_Y，残差），公式为：$ \text{TOTAL}_Y = \text{EXPLAINED}_Y + \text{UNEXPLAINED}_Y $
第二步（残差回归）：以残差为因变量，检验 VOI 对异常成分的影响，含控制变量的公式为：$ \text{UNEXPLAINED}_Y = \beta_0 + \beta1 \text{VOI} + \sum{k=2}^{K} \beta_k \text{CONTROLS} + \varepsilon_i $

根据 Chen 等人（2018）的调查，2011-2015 年 5 本顶刊中，有 61 篇研究使用该方法，涉及多个研究主题。但问题在于：多数研究未将第一步回归变量纳入第二步，误以为残差与第一步变量 “正交” 无需控制 —— 这正是偏差的根源（Chen et al., 2018）。

二、看不见的偏差：从系数偏移到错误推断

Chen 等人（2018）通过 Frisch–Waugh–Lovell 定理证明，两步回归法的偏差源于 “未控制变量间协方差”，偏差大小取决于三步变量的相关性：第一步变量（$x_1$）、VOI（$x_2$）、第二步控制变量（$x_3$）。

1. 偏差的两种典型表现

衰减偏差：当$x_1$与$x_2$相关，且第二步无控制变量时，错误两步法的系数$ \check{\beta}_2 = \frac{\text{Cov}(x_2, \tilde{u})}{\text{Var}(x_2)} $会向零偏移 —— 因正确单步法系数$ \hat{\beta}_2 = \frac{\text{Cov}(x_2, \tilde{u})}{\text{Var}(r_2)} $（$r_2$为$x_2$对$x_1$的残差），而$ \text{Var}(x_2) > \text{Var}(r_2) $（Chen et al., 2018）。
方向不确定偏差：当$x_1$与$x_3$相关（最常见场景），偏差可能从 “衰减” 变为 “膨胀” 甚至 “符号反转”。例如，当$R_{13}^2=0.2$（$x_3$对$x_1$的$R^2$）、$R_1^2=45%$、$R_2^2=45%$时，系数符号会完全反转（$ \pi_c=1.5835 $）（Chen et al., 2018）。

2. 错误推断：Type I 与 Type II 错误

偏差最终导致两种统计错误，对应实证研究的 “假阳性” 与 “假阴性”：

Type I 错误（假阳性 / FP）：实际原假设$H_0$为真（VOI 与残差无关联），却错误拒绝$H_0$（误判显著）。
Type II 错误（假阴性 / FN）：实际$H_0$为假（VOI 与残差有关联），却错误接受$H_0$（误判不显著）。Chen 等人（2018）发现，该错误在部分场景中虽未改变推断，但系数平均偏差达 18%（9%-29%）。

三、三种无偏差解决方案

针对两步回归法的缺陷，Chen 等人（2018）提出三种简洁有效的解决方案，核心均为 “充分控制变量协方差”：

1. 核心方案：单步回归（首选）

直接将 “第一步变量 + 第二步变量（VOI + 控制变量）” 纳入同一回归，公式为：$ \text{TOTAL}_Y = \gamma_0 + \gamma_1 \text{VOI} + \gamma_2 x_1 + \gamma_3 \text{CONTROLS} + \mu_i $

若第一步按特定条件回归，需加入相关虚拟变量及交互项，确保与第一步残差逻辑一致（Chen et al., 2018）。

2. 等效两步法 1（基于 Frisch–Waugh–Lovell 定理）

步骤为：① 回归$ \text{TOTAL}_Y \to x_1 $得残差$ \tilde{u} $；② 回归$ \text{VOI} \to x_1 $得残差$ r_2 $、$ \text{CONTROLS} \to x_1 $得残差$ r_3 $；③ 回归$ \tilde{u} \to r_2 + r_3 $，结果与单步回归完全一致（Chen et al., 2018）。

3. 等效两步法 2：补充第一步变量

第二步回归中直接纳入所有第一步变量，公式为：$ \text{UNEXPLAINED}_Y = \alpha_0 + \alpha_1 \text{VOI} + \alpha_2 x_1 + \alpha_3 \text{CONTROLS} + \gamma_i $

仅标准误因自由度略有差异，系数无偏差（Chen et al., 2018）。

四、对研究者的启示

Chen 等人（2018）的研究并非否定 “分析变量异常成分” 的价值，而是指出两步回归法的计量缺陷：该方法无充分依据，且在多数场景会产生错误推断。对研究者而言，需：

优先采用单步回归，避免默认使用两步法；
解读过往文献时，需警惕 “第一步与第二步变量相关” 的研究结果；
单步回归不免除原有控制需求（Chen et al., 2018）。

在实证研究追求 “因果识别” 与 “结果可靠” 的当下，识别这类 “隐形陷阱”，正是提升研究质量的关键一步。

参考文献

Chen, W., Hribar, P., & Melessa, S. (2018). Incorrect inferences when using residuals as dependent variables. Journal of Accounting Research, https://doi.org/10.1111/1475-679X.12195