1 min read

因果推断:DESCN 深度全空间交叉网络(2)

因果推断:的核心挑战与 DESCN 模型提出

个体治疗效应(Individualized Treatment Effect, ITE)估计是因果推断:领域的核心任务,广泛应用于电商营销、医疗干预等场景。其核心难点在于两点:一是处理偏差,即处理组与控制组的特征分布差异导致模型偏误;二是样本不平衡,两组样本量悬殊影响训练稳定性(Zhong et al., 2022)。为同时解决这两个问题,阿里巴巴团队提出深度全空间交叉网络(Deep Entire Space Cross Networks, DESCN),通过融合全空间网络(ESN)与交叉网络(X-network),实现端到端的 ITE 精准估计,并发布首个含处理偏差的大规模工业数据集(Zhong et al., 2022)。

{r descn-architecture, echo=FALSE, out.width='80%', fig.align='center', fig.cap='DESCN 模型架构图'} knitr::include_graphics('images/descn-architecture-diagram.jpg')

核心组件 1:全空间网络(ESN)—— 缓解处理偏差

ESN 的核心设计是打破传统 “分组学习” 模式,在全样本空间联合优化处理倾向与响应。其关键结构与逻辑如下:

  • 核心公式:全空间处理响应 $\mathrm{ESTR} = \mu_1 \cdot \pi$,全空间控制响应 $\mathrm{ESCR} = \mu_0 \cdot (1-\pi)$

  • 变量定义:$\mu_1$ 为处理组响应,$\mu_0$ 为控制组响应,$\pi$ 为处理倾向(即 $P(W=1|X)$,由多层感知机构成的 Propensity Network 学习)

  • 训练逻辑:处理组样本($w=1$)仅计算 ESTR 与真实处理响应(TR)的损失,$\mu_0$ 参数不接收梯度;控制组样本($w=0$)仅计算 ESCR 与真实控制响应(CR)的损失,$\mu_1$ 参数不接收梯度。通过概率乘积让两组信息相互渗透,从根源缓解处理偏差(Zhong et al., 2022)。

核心组件 2:交叉网络(X-network)—— 缓解样本不平衡

X-network 通过伪治疗效应(Pseudo Treatment Effect, PTE)建立两组响应的关联,实现信息共享:

  • 核心公式:交叉响应 $\mu_0’ = \mu_1 - \tau’$,$\mu_1’ = \mu_0 + \tau'$

  • 变量定义:$\tau’$ 为伪治疗效应,由 PTE Network 独立学习

  • 训练逻辑:$\mu_0’$ 模拟控制组样本在处理下的假设响应,$\mu_1’$ 模拟处理组样本在控制下的假设响应。样本量较少的组可通过$\tau’$ 借用另一组的有效信息,平衡数据分布差异带来的训练偏误(Zhong et al., 2022)。

DESCN 的融合设计与优化目标

DESCN 整合 ESN 与 X-network 的核心优势,共享底层 Shared Networks(MLP)提取特征,形成端到端联合优化框架:

  • 组件协同:ESN 模块负责处理倾向与全空间响应学习,X-network 模块负责响应与伪治疗效应学习,两者梯度互不干扰且特征共享

  • 优化目标:同时最小化 ESTR/ESCR 损失与交叉响应损失,联合优化 $\pi$、$\mu_1$、$\mu_0$、$\tau’$ 四大核心参数,实现处理偏差与样本不平衡的同步解决(Zhong et al., 2022)。

评估指标与实验结果

关键评估指标

  1. $\varepsilon_{\mathrm{PEHE}}$(个体效应误差):衡量估计 ITE 与真实 ITE 的差异,公式为 $\varepsilon_{\mathrm{PEHE}} = \mathbb{E}\left( (\hat{\tau}(x) - \tau(x))^2 \right)$,数值越小精度越高

  2. $\mathrm{AUUC}$(提升曲线下面积):衡量模型对高敏感个体的排序能力,数值越大业务应用价值越高

实验性能

DESCN 在两类数据集上进行验证:

  • 合成数据集 Epilepsy:$\varepsilon_{\mathrm{PEHE}}$ 较基线模型 CFRₘₘₙ提升超 7%

  • 真实电商数据集 Lazada(优惠券投放场景):$\mathrm{AUUC}$ 提升超 4%,验证了工业场景的实用性(Zhong et al., 2022)。

模型贡献与学术价值

  1. 提出 “全空间学习 + 交叉关联” 的双模块架构,首次同时解决 ITE 估计的两大核心问题

  2. 发布首个含处理偏差的大规模工业数据集,填补因果推断:领域真实场景数据空白

  3. 端到端训练框架兼容各类 Uplift 模型,为后续研究提供通用基准(Zhong et al., 2022)。

参考文献

Zhong, K., Xiao, F. T., Ren, Y., Liang, Y., Yao, W., Yang, X., & Cen, L. (2022). DESCN: Deep entire space cross networks for individual treatment effect estimation. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. https://doi.org/10.48550/arxiv.2207.09920