1 min read

因果推断:DESCN 深度全空间交叉网络

在电商精准营销场景中,“给哪些用户发优惠券才能最大化转化增量”;于精准医疗领域,“哪种药物对特定患者的疗效最显著”,这些问题核心均指向因果推断中的 “个体处理效应(ITE)估计”。传统模型常因 “处理偏差” 和 “样本不均衡” 出现问题,阿里巴巴团队提出的DESCN(Deep Entire Space Cross Networks) ,借助 “全空间建模 + 交叉约束” 的创新设计,为这些问题提供端到端解决方案(Zhong et al., 2022)。

一、因果推断的实践困境:传统模型存在问题的原因

在 ITE 估计过程中,需量化 “干预(如发券)对个体结果(如购买)的净影响”,即 τ(x)=μ1(x)μ0(x)τ(x)=μ1(x)μ0(x)μ1μ1为干预后响应,μ0μ0为无干预时的响应)。然而,由于个体不可能同时处于干预和未干预两种状态,这种反事实结果无法直接观测,因此需要借助因果推断方法,通过构建反事实模型、匹配相似个体或利用机器学习算法,从观测数据中估计出每个个体的因果效应 τ(x)τ(x),从而为精准决策提供依据。

1. 处理偏差(Treatment Bias):两组分布存在差异

干预组(如发券用户)与对照组(如未发券用户)的特征分布,常因非随机干预策略产生不同。以电商为例,“仅给低活跃用户发券” 会致使对照组以高活跃用户为主,干预组以低活跃用户为主,这种分布差异会使模型学习到 “偏倚的响应函数”,将 “用户活跃度” 的影响误当作 “优惠券的增量效应”(Zhong et al., 2022)。

2. 样本不均衡(Sample Imbalance):小样本建模存在局限

实际业务里,干预通常仅针对少数人群,如电商优惠券仅发放给 5% 的 “促销敏感用户”,导致干预组样本量远少于对照组。传统双模型(如 T-Learner)对小样本组的响应函数建模误差较大,难以捕捉真实的干预增量。

二、DESCN :双模块协同解决问题

DESCN 的核心思路为 “分而治之、协同优化”,通过ESN(全空间网络)解决处理偏差,通过X-network(交叉网络)解决样本不均衡,最终利用多任务学习实现端到端训练(Zhong et al., 2022)。

1. ESN:全空间建模,消除 “分布差异”

传统模型在干预组 / 对照组各自的 “子空间” 单独建模μ1μ1μ0μ0,ESN 借鉴推荐系统的 ESMM 思想,将 “干预倾向” 与 “响应” 融合,在 “全空间” 联合建模:

  • 定义ESTR(全空间干预响应)P(Y,W=1|X)=μ1(x)π(x)P(Y,W=1|X)=μ1(x)π(x)π(x)π(x)为倾向得分,即 “用户xx被干预的概率”);

  • 定义ESCR(全空间对照响应)P(Y,W=0|X)=μ0(x)(1π(x))P(Y,W=0|X)=μ0(x)(1π(x))

该设计使干预组样本同时助力μ0μ0的学习,对照组样本同时助力μ1μ1的学习,自然平衡两组分布。例如,高活跃的对照组用户会间接优化 “高活跃用户若被发券” 的μ1μ1估计,从根源缓解处理偏差(Zhong et al., 2022)。

2. X-network:交叉约束,平衡 “样本不均”

X-network 在 ESN 基础上,引入PTE(伪处理效应)网络,通过 “反事实交叉” 强制模型学习干预增量的一致性:

  • 交叉干预响应:μ1=μ0+τ(模拟 “对照组用户接受干预” 的结果);

  • 交叉对照响应:μ0=μ1τ(模拟 “干预组用户无干预” 的结果)。

为防止数值截断(如μ0+τ超出 [0,1]),模型在Logit 层面(Sigmoid 逆变换)进行τ的加减操作,既保证数值合理性,又能捕捉微小的干预效应(Zhong et al., 2022)。此设计使小样本组(如干预组)能借助大样本组(如对照组)的信息优化建模,显著降低不均衡样本的误差。

三、实验验证:DESCN 的性能表现

Zhong 等(2022)在两个数据集上对 DESCN 的性能进行验证,结果显示其性能全面优于传统模型:

1. 合成数据集(Epilepsy):ITE 估计更准确

在已知真实 ITE 的 Epilepsy 数据集上,DESCN 的 **εPEHE(个体效应误差)相对基线模型 CFR-mmd 降低 7.6%,¯τ(平均效应误差)** 降低 80.9%,这表明 DESCN 对 “个体干预增量” 的估计更接近真实值。

2. 工业数据集(Lazada):业务排序更高效

在电商优惠券场景的 Lazada 数据集(训练集非随机干预、测试集 RCT)上,DESCN 的 **AUUC(Uplift 排序面积)相对 CFR-mmd 提升 4.9%,¯τtreated(干预组效应误差)** 降低 85.0%。这意味着在实际营销中,DESCN 能更精准筛选出 “发券后才转化” 的敏感人群,提高资源利用率(Zhong et al., 2022)。

四、实践价值与未来发展方向

DESCN 的价值不仅体现在模型创新,还在于其工程化落地能力:

  • 模块通用性:ESN 可嵌入 TARNet 等现有模型,直接提升去偏效果;

  • 数据贡献:团队公开首个 “训练集偏倚 + 测试集 RCT” 的工业因果数据集,为领域研究提供支持(Zhong et al., 2022)。

未来,DESCN 可向 “多干预场景”(如不同面额优惠券)和 “连续干预场景”(如动态定价)拓展,覆盖更多业务需求。

参考文献

Zhong, K., Xiao, F., Ren, Y., Liang, Y., Yao, W., Yang, X., & Cen, L. (2022). DESCN: Deep entire space cross networks for individual treatment effect estimation. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 1-9. https://doi.org/10.1145/3534678.3539198