在实证研究中,“两步回归法” 是研究者分析变量 “异常成分” 的常用工具 —— 先通过 OLS 将总变量分解为 “正常部分”(预测值)与 “异常部分”(残差),再以残差为因变量回归感兴趣变量(VOI)。但 Chen、Hribar 与 Melessa(2018)在《Incorrect Inferences When Using Residuals as Dependent Variables》中指出,这种看似常规的方法实则暗藏陷阱,可能导致严重的推断错误。
一、两步回归法:流行却有缺陷的研究工具
两步回归法的核心逻辑看似直观:
第一步(分解变量):通过 OLS 将总变量拆分为 “正常成分”(EXPLAINED_Y,预测值)与 “异常成分”(UNEXPLAINED_Y,残差),公式为:$ _Y = _Y + _Y $
第二步(残差回归):以残差为因变量,检验 VOI 对异常成分的影响,含控制变量的公式为:$ _Y = _0 + 1 + {k=2}^{K} _k + _i $
根据 Chen 等人(2018)的调查,2011-2015 年 5 本顶刊中,有 61 篇研究使用该方法,涉及多个研究主题。但问题在于:多数研究未将第一步回归变量纳入第二步,误以为残差与第一步变量 “正交” 无需控制 —— 这正是偏差的根源(Chen et al., 2018)。
二、看不见的偏差:从系数偏移到错误推断
Chen 等人(2018)通过 Frisch–Waugh–Lovell 定理证明,两步回归法的偏差源于 “未控制变量间协方差”,偏差大小取决于三步变量的相关性:第一步变量()、VOI()、第二步控制变量()。
1. 偏差的两种典型表现
衰减偏差:当与相关,且第二步无控制变量时,错误两步法的系数$ _2 = _2 = r_2x_2x_1 (x_2) > (r_2) $(Chen et al., 2018)。
方向不确定偏差:当与相关(最常见场景),偏差可能从 “衰减” 变为 “膨胀” 甚至 “符号反转”。例如,当(对的)、、时,系数符号会完全反转($ _c=1.5835 $)(Chen et al., 2018)。
2. 错误推断:Type I 与 Type II 错误
偏差最终导致两种统计错误,对应实证研究的 “假阳性” 与 “假阴性”:
Type I 错误(假阳性 / FP):实际原假设为真(VOI 与残差无关联),却错误拒绝(误判显著)。
Type II 错误(假阴性 / FN):实际为假(VOI 与残差有关联),却错误接受(误判不显著)。Chen 等人(2018)发现,该错误在部分场景中虽未改变推断,但系数平均偏差达 18%(9%-29%)。
三、三种无偏差解决方案
针对两步回归法的缺陷,Chen 等人(2018)提出三种简洁有效的解决方案,核心均为 “充分控制变量协方差”:
1. 核心方案:单步回归(首选)
直接将 “第一步变量 + 第二步变量(VOI + 控制变量)” 纳入同一回归,公式为:$ _Y = _0 + _1 + _2 x_1 + _3 + _i $
若第一步按特定条件回归,需加入相关虚拟变量及交互项,确保与第一步残差逻辑一致(Chen et al., 2018)。
2. 等效两步法 1(基于 Frisch–Waugh–Lovell 定理)
步骤为:① 回归$ _Y x_1 x_1 r_2 x_1 r_3 r_2 + r_3 $,结果与单步回归完全一致(Chen et al., 2018)。
3. 等效两步法 2:补充第一步变量
第二步回归中直接纳入所有第一步变量,公式为:$ _Y = _0 + _1 + _2 x_1 + _3 + _i $
仅标准误因自由度略有差异,系数无偏差(Chen et al., 2018)。
四、对研究者的启示
Chen 等人(2018)的研究并非否定 “分析变量异常成分” 的价值,而是指出两步回归法的计量缺陷:该方法无充分依据,且在多数场景会产生错误推断。对研究者而言,需:
优先采用单步回归,避免默认使用两步法;
解读过往文献时,需警惕 “第一步与第二步变量相关” 的研究结果;
单步回归不免除原有控制需求 (Chen et al., 2018)。
在实证研究追求 “因果识别” 与 “结果可靠” 的当下,识别这类 “隐形陷阱”,正是提升研究质量的关键一步。
参考文献
Chen, W., Hribar, P., & Melessa, S. (2018). Incorrect inferences when using residuals as dependent variables. Journal of Accounting Research, https://doi.org/10.1111/1475-679X.12195