3 min read

因果推断:理论奠基、工具演进与未来挑战

因果推断是回答 “为什么” 的科学,它贯穿生物医学、社会科学、计算机科学等多个领域,从农业实验的产量比较到经济学的政策评估,再到大模型时代的算法公平性分析,始终是解决 “反事实问题” 的核心工具。而这一领域的发展,离不开五篇里程碑式的文献 —— 它们分别奠定了因果推断的理论框架、开发了关键分析工具、指明了未来研究方向。本文将系统解读这五篇文献的核心贡献,梳理因果推断从理论到实践的演进脉络。

一、因果推断框架的奠基:从 “潜在结果” 到 “因果生成”

因果推断的第一步,是建立能精准描述 “原因 - 结果” 关系的理论框架。这一阶段的三篇文献,分别从 “单元层面的潜在结果”“变量间的函数机制”“图形化的因果拓扑” 三个维度,为后续研究搭建了基础。

1. Neyman (1990):潜在结果框架的起源 —— 农业实验中的因果思维

Jerzy Neyman 在 1923 年波兰语论文的英译版(1990 年发表于《Statistical Science》)中,首次提出 “单元 - 处理 - 潜在结果” 的关联框架,成为现代因果推断 “潜在结果框架” 的源头。其核心贡献聚焦于农业田间实验的痛点:一块地块无法同时种植多个作物品种,如何科学比较品种产量?

Neyman 的解决方案极具开创性:

  • 定义 “潜在产量”(潜在结果的雏形):每个 “单元(地块\(k\))” 在不同 “处理(品种\(i\))” 下存在 “理论产量”\(U_{ik}\),即第\(i\)个品种在第\(k\)块地的潜在产量。由于地块仅能种植一个品种,仅能观测到该品种对应的\(U_{ik}\),其余均为 “未观测潜在产量”—— 这是 “每个单元存在潜在结果” 的首次形式化表述(Neyman, 1990, p. 466)。

  • urn 模型具象化因果分配:用 “抽奖箱(urn)” 模拟实验过程:每个品种对应一个 urn,箱内小球标注 “品种 - 地块 - 潜在产量\(U_{ik}\)”;不放回抽样时,抽中某地块的球后,其他 urn 中该地块的球消失,精准模拟 “地块不可重复使用” 的现实约束(Neyman, 1990, §2)。

  • 无偏估计与方差修正:推导了非放回抽样下的产量估计方法,证明算术平均是品种真实平均产量(\(a_i = \frac{1}{m}\sum_{k=1}^m U_{ik}\))的最优估计,并修正了传统独立抽样的方差公式(\(\mu^2 = \frac{m-\kappa}{\kappa(m-1)}\sigma_U^2\),其中\(m\)为总地块数,\(\kappa\)为抽样地块数)(Neyman, 1990, p. 468)。

这篇文献的价值远超农业领域 —— 它将 “因果效应” 定义为 “同一单元在不同处理下的潜在结果差异”,为后续所有基于潜在结果的因果推断(如倾向得分、双重差分)提供了理论起点。

2. Haavelmo (1943):结构方程模型(SEM)的机制建模

在 Neyman 奠定潜在结果框架的同时,Trygve Haavelmo 于 1943 年在《Econometrica》发表论文,首次将经济学中的 “联立方程组” 从 “数学求解工具” 升级为 “因果机制载体”,为结构方程模型(SEM)进入因果推断奠定基础。

经济学研究的核心难题是:消费、投资、收入等变量相互依赖,如何区分 “因果效应” 与 “关联关系”? Haavelmo 的突破在于:

  • 赋予联立方程组因果含义:每个方程对应一个可解释的经济因果过程,而非单纯的变量数值关系。例如,消费方程\(u_t = \alpha r_t + \beta + x_t\)刻画 “收入\(r_t\)(原因)→消费\(u_t\)(结果)”,投资方程\(v_t = \kappa(u_t-u_{t-1}) + y_t\)刻画 “消费变化(原因)→投资\(v_t\)(结果)”,其中\(x_t\)\(y_t\)为 “随机误差项”—— 代表未观测的复杂因素(如消费者心情、临时政策冲击),而非测量误差(Haavelmo, 1943, p. 6)。

  • 批判 “单独估计” 的偏差:指出传统方法将联立方程拆分(如用最小二乘法单独估计消费方程)会因变量间的因果依赖(如收入\(r_t\)依赖消费\(u_t\)\(u_t\)又依赖\(r_t\))导致参数偏差。例如,若\(X = bY + \epsilon_2\)\(Y = aX + \epsilon_1\),单独估计得\(E(Y|X)=aX\),但联立后实际\(E(Y|X) \neq aX\)(Haavelmo, 1943, p. 8)。

  • 提出 “联合分布估计” 范式:主张基于误差项的联合概率分布,推导可观测变量(消费、投资、收入)的联合分布,再用最大似然法估计因果参数(如\(\alpha\)\(\kappa\)),确保估计无偏(Haavelmo, 1943, §3)。

这篇文献的关键在于:它让 SEM 从 “描述关联” 转向 “刻画因果生成机制”,为后续非参数 SEM(Pearl, 2009)和多领域因果建模(如社会学的潜在变量分析)提供了经济学视角的理论支撑。

3. Wright (1934):路径分析与 DAG 的雏形 —— 因果关系生成

1934 年,Sewall Wright 在《The Annals of Mathematical Statistics》发表论文,首次提出 “路径分析” 方法,构建了 “有向图 + 路径系数” 的线性因果建模框架,直接为后续有向无环图(DAG)和 SEM 的 “因果路径可视化” 提供核心思想。

Wright 的突破针对一个经典问题:如何区分 “直接因果效应” 与 “间接因果效应”(如遗传、环境对生物性状的影响)? 他的解决方案是 “图形化 + 定量化”:

  • 路径图编码因果拓扑:用 “单向有向箭头”(如\(A \to B\))表示 “\(A\)\(B\)的直接原因”,用 “双箭头” 表示 “变量相关但无明确因果方向”(如父亲身高与母亲身高),用 “残差项” 表示未观测的次要因果因素(Wright, 1934, p. 165)。这种符号体系,正是现代 DAG“父节点→子节点” 定义的直接起源。

  • 路径系数量化效应强度:路径系数是标准化后的直接因果效应(取值 [-1,1]),例如 “窝崽数量→豚鼠出生体重” 的路径系数为 - 0.57,代表 “窝崽数量每增加 1 个标准差,出生体重减少 0.57 个标准差”(Wright, 1934, p. 180)。更重要的是,他推导了 “总相关性拆解公式”\(r_{0g} = \sum P_{0i}r_{gi}\),首次将 “总相关” 拆分为 “各因果路径的贡献之和”(如豚鼠出生体重与窝崽数量的总相关 - 0.66,可拆分为 “窝崽数量→生长速率→体重”(-0.51)和 “窝崽数量→孕期→体重”(-0.15))(Wright, 1934, p. 182)。

  • 验证因果机制的实践价值:通过豚鼠毛色、人类智力等案例,证明路径分析可区分 “遗传效应” 与 “环境效应”(如豚鼠毛色的遗传贡献占 38%,个体环境贡献占 53%),避免了传统 “从相关推因果” 的误区(Wright, 1934, §4)。

这篇文献的里程碑意义在于:它首次将抽象的因果关系转化为 “看得见、算得清” 的工具,路径图的可视化逻辑被 DAG 完整继承,路径系数的效应分解思想则成为 SEM“直接 / 间接效应分析” 的核心。

二、观测研究的突破性工具:Rosenbaum & Rubin (1983)—— 倾向得分解决 “混杂难题”

随着因果推断从实验研究(如农业、RCT)拓展到观测研究(如医学疗效对比、政策评估),新的挑战出现了:无随机分配时,如何消除混杂变量(如患者病情、家庭背景)的偏差? Paul R. Rosenbaum 与 Donald B. Rubin 1983 年发表于《Biometrika》的论文,首次提出 “倾向得分” 概念,为这一难题提供了统一解决方案。

倾向得分:从 “维度灾难” 到 “单变量调整”

观测研究的核心困境是 “维度灾难”—— 当混杂变量较多时(如医学研究的数十个临床指标),传统匹配或分层会因 “子层空值” 失效。Rosenbaum 与 Rubin 的解决方案是 “浓缩混杂信息”:

  • 定义倾向得分:倾向得分\(e(X_i)\)是 “给定协变量\(X_i\)时,单元\(i\)被分配到处理组(\(W_i=1\))的条件概率”,即\(e(X_i) = P(W_i=1 \mid X_i)\)(Rosenbaum & Rubin, 1983, p. 41)。例如,一位年轻、无并发症的患者接受手术的倾向得分可能为 0.8,而一位年老、有基础病的患者可能为 0.2。

  • 三大定理证明有效性

  1. 倾向得分是平衡得分:给定倾向得分后,协变量与处理分配条件独立(\(X \perp W \mid e(X)\)),即倾向得分相同的处理 - 对照单元,所有协变量分布完全平衡(Rosenbaum & Rubin, 1983, Theorem 1)。

  2. 倾向得分是最粗平衡得分:所有能实现平衡的得分(如原始协变量\(X\))都需包含倾向得分的信息,而倾向得分是信息损失最少的简化形式(Rosenbaum & Rubin, 1983, Theorem 2)。

  3. 强可忽略性下的无偏性:若处理分配满足 “强可忽略性”(\((Y_1,Y_0) \perp W \mid X\)\(0<P(W=1|X)<1\)),则给定倾向得分后强可忽略性仍成立,基于倾向得分的调整可无偏估计平均治疗效应(ATE)(Rosenbaum & Rubin, 1983, Theorem 3)。

  • 三大实用应用场景

    • 倾向得分匹配:为每个处理单元匹配倾向得分最接近的对照单元,模拟随机实验的平衡效果,偏差可减少 67%-98%(Rosenbaum & Rubin, 1983, Table 1)。

    • 倾向得分分层:按倾向得分分 5-10 个子层,层内比较效应后加权平均,如冠心病研究中,74 个协变量的初始不平衡(F 统计量最大 51.8)在分层后完全消除(F 统计量最大 3.6)(Rosenbaum & Rubin, 1983, Table 2)。

    • 倾向得分协变量调整:用单变量倾向得分替代多变量回归,避免多重共线性,提升估计稳健性(Rosenbaum & Rubin, 1983, §3.4)。

这篇文献之所以成为 “观测研究因果推断的基石”(2025 年谷歌学术引用量近 4 万次),在于它用一个简单的概率值解决了复杂的混杂问题,让因果推断从 “实验专属” 走向 “观测研究普及”,至今仍是医学、社会学、经济学的主流工具。

三、未来挑战与跨学科方向:Cinelli et al. (2025)—— 因果推断的 “下一个十年”

基于前四篇文献奠定的框架与工具,因果推断面临新的时代课题:大数据、AI、复杂系统如何推动因果推断发展?跨学科研究有哪些核心难题? Cinelli 等人 2025 年的文献(聚焦因果推断 12 大挑战),为这些问题提供了答案,为生物医学、社会科学、计算机科学的未来研究指明方向。

12 大挑战的核心方向(Cinelli et al., 2025):

  • 复杂实验设计:线上 A/B 测试、移动健康实验的 “自适应设计”“平台试验(动态纳入新干预)” 需解决多重比较、时序误差问题。

  • 干扰与系统效应:违背 SUTVA 假设(如疫苗的群体免疫、社交网络的信息传播)时,需通过 “暴露映射” 量化单元间的溢出效应。

  • 异质性效应与政策学习:高维 / 非欧数据(图、文本)的条件平均处理效应(CATE)估计,以及公平性约束下的最优政策(如\(\pi(x) = \mathbb{1}\{CATE(x) > 0\}\))设计。

  • 高维中介与机制分析:多组学、文本数据中的 “中介变量识别”(如基因表达如何介导药物疗效),以及时序中介效应的动态建模。

  • LLM 与因果推断:利用 LLM 处理多模态数据、生成 “人工智能体” 开展合成实验,但需解决合成结果的验证、LLM 混淆相关与因果的问题。

这些挑战的本质,是因果推断在 “复杂数据 + 跨学科需求” 下的延伸 —— 它们均基于前四篇文献的理论基础(如潜在结果、SEM、DAG、倾向得分),同时要求新的方法创新(如高维因果发现、AI 辅助的反事实推理)。

结语:因果推断的 “承上启下” 之路

从 Neyman 1923 年(1990 英译)的潜在结果,到 Haavelmo 1943 年的 SEM 因果机制,再到 Wright 1934 年的路径分析与 Rosenbaum & Rubin 1983 年的倾向得分,最后到 Cinelli 2025 年的跨学科挑战,因果推断的发展脉络清晰而连贯:框架奠基→工具突破→未来拓展

这五篇文献的共同价值,在于它们始终围绕 “如何科学回答因果问题” 这一核心 ——Neyman 让因果效应可定义,Haavelmo 让因果机制可建模,Wright 让因果关系可可视化,Rosenbaum & Rubin 让观测研究的因果推断可操作,Cinelli 则让因果推断在新时代的跨学科应用中可延伸。对于今天的研究者而言,重温这些经典不仅能掌握因果推断的 “硬核工具”,更能理解其 “从问题出发、为实践服务” 的本质 —— 这正是因果推断跨越百年仍充满活力的关键。

参考文献