在因果机器学习领域,准确估计处理效应(如平均处理效应 ATE)是关键目标,而 Neyman - 正交性与 Doubly Robust(DR)得分则是实现这一目标的核心支撑。本文基于 Lechner 和 Mareckova(2024)的《Comprehensive Causal Machine Learning》,系统梳理二者的核心逻辑与应用。
一、Neyman - 正交性:因果估计的 “抗干扰屏障”
Neyman - 正交性并非具体方法,而是一种保障因果估计稳健性的数学性质。其本质是:在识别目标因果参数(如 ATE、GATE、IATE)的矩条件中,干扰参数(倾向得分p(x)、结果回归函数μ(x))的估计微小扰动,不会对目标参数估计产生局部影响(Lechner & Mareckova, 2024)。
这一性质的核心价值在于,当使用机器学习模型(如随机森林、神经网络)估计干扰参数时,即便模型存在小幅拟合误差,也不会破坏目标因果参数(如 ATE)的估计一致性与推断有效性,为因果机器学习方法(如 Double Machine Learning,DML)的可靠性奠定基础(Lechner & Mareckova, 2024)。
二、DR 得分:承载 Neyman - 正交性的 “核心载体”
DR 得分是满足 Neyman - 正交性的具体函数形式,也是 DML 方法估计因果效应的核心工具,其构造直接服务于因果参数的准确识别。
1. DR 得分的核心公式
针对处理组m与对照组l的对比场景,DR 得分公式如下(Lechner & Mareckova, 2024):
$ {m,l}^{dml}(O, {m,l}^{dml}(X)) = _m(X) - _l(X) + - $
其中:
O = (X,Y,D):观测变量集合(X为特征、Y为结果、D为处理状态);
ηm, ldml(X) = (μm(X),μl(X),pm(X),pl(X)):需估计的干扰参数集合;
μd(X) = E(Y|D=d,X=x):给定特征与处理状态的结果条件期望(结果回归函数);
pd(X) = P(D=d|X=x):给定特征时接受处理的概率(倾向得分);
𝟙(⋅):指示函数(条件成立取 1,否则取 0)(Lechner & Mareckova, 2024)。
2. DR 得分的关键作用:精准识别因果参数
通过对 DR 得分取期望或条件期望,可直接识别不同粒度的因果参数,这也是其 “Doubly Robust” 命名的重要原因 —— 既依赖结果回归,也依赖倾向得分,双重保障识别准确性(Lechner & Mareckova, 2024):
总体平均处理效应(ATE):ATE(m,l) = E[Γm, ldml(O,ηm, ldml, 0(X))](η0为干扰参数真实值);
组平均处理效应(GATE):GATE(m,l;z) = E[Γm, ldml(O,ηm, ldml, 0(X))|Z=z](Z为分组变量);
个体平均处理效应(IATE):IATE(m,l;x) = E[Γm, ldml(O,ηm, ldml, 0(X))|X=x](Lechner & Mareckova, 2024)。
三、DR 得分的实际落地:交叉拟合(Cross-fitting)
在实际数据处理中,为避免过拟合并严格满足 Neyman - 正交性,DR 得分的估计需结合交叉拟合方法,具体步骤如下(Lechner & Mareckova, 2024):
数据分折:将数据集划分为K个互斥子集(折);
干扰参数估计:对第i个观测,使用除第k(i)折外的所有数据,估计干扰参数η̂m, ldml, − k(i)(xi)(避免用观测自身数据估计,减少偏差);
得分计算与 ATE 估计:将估计的干扰参数代入 DR 得分公式,得到每个观测的估计得分Γ̂m, ldml(oi;η̂m, ldml, − k(i)(xi)),最终 ATE 的 DML 估计为所有得分的平均值:
$ ^{dml}(m,l) = {i=1}^N {m,l}^{dml}(o_i; _{m,l}^{dml,-k(i)}(x_i)) $
四、与其他方法的关联:以 Generalized Random Forest(grf)为例
DR 得分的核心逻辑并非局限于 DML 方法。研究表明,Generalized Random Forest(grf)的 ATE 估计得分与 DML 的 DR 得分完全等价,且同样满足 Neyman - 正交性,这使得 grf 的 ATE 估计也具备高效性与稳健性,进一步验证了 Neyman - 正交性与 DR 得分逻辑在因果机器学习中的通用性(Lechner & Mareckova, 2024)。
结语
Neyman - 正交性为因果估计提供了 “抗干扰” 的理论保障,而 DR 得分则是将这一理论落地的核心工具。二者的结合,既解决了机器学习估计干扰参数的误差传递问题,又实现了因果参数的精准识别,成为现代因果机器学习的基石。