因果推断：理论奠基、工具演进与未来挑战

因果推断是回答 “为什么” 的科学，它贯穿生物医学、社会科学、计算机科学等多个领域，从农业实验的产量比较到经济学的政策评估，再到大模型时代的算法公平性分析，始终是解决 “反事实问题” 的核心工具。而这一领域的发展，离不开五篇里程碑式的文献 —— 它们分别奠定了因果推断的理论框架、开发了关键分析工具、指明了未来研究方向。本文将系统解读这五篇文献的核心贡献，梳理因果推断从理论到实践的演进脉络。

一、因果推断框架的奠基：从 “潜在结果” 到 “因果生成”

因果推断的第一步，是建立能精准描述 “原因 - 结果” 关系的理论框架。这一阶段的三篇文献，分别从 “单元层面的潜在结果”“变量间的函数机制”“图形化的因果拓扑” 三个维度，为后续研究搭建了基础。

1. Neyman (1990)：潜在结果框架的起源 —— 农业实验中的因果思维

Jerzy Neyman 在 1923 年波兰语论文的英译版（1990 年发表于《Statistical Science》）中，首次提出 “单元 - 处理 - 潜在结果” 的关联框架，成为现代因果推断 “潜在结果框架” 的源头。其核心贡献聚焦于农业田间实验的痛点：一块地块无法同时种植多个作物品种，如何科学比较品种产量？

Neyman 的解决方案极具开创性：

定义 “潜在产量”（潜在结果的雏形）：每个 “单元（地块\(k\)）” 在不同 “处理（品种\(i\)）” 下存在 “理论产量”\(U_{ik}\)，即第\(i\)个品种在第\(k\)块地的潜在产量。由于地块仅能种植一个品种，仅能观测到该品种对应的\(U_{ik}\)，其余均为 “未观测潜在产量”—— 这是 “每个单元存在潜在结果” 的首次形式化表述（Neyman, 1990, p. 466）。
urn 模型具象化因果分配：用 “抽奖箱（urn）” 模拟实验过程：每个品种对应一个 urn，箱内小球标注 “品种 - 地块 - 潜在产量\(U_{ik}\)”；不放回抽样时，抽中某地块的球后，其他 urn 中该地块的球消失，精准模拟 “地块不可重复使用” 的现实约束（Neyman, 1990, §2）。
无偏估计与方差修正：推导了非放回抽样下的产量估计方法，证明算术平均是品种真实平均产量（\(a_i = \frac{1}{m}\sum_{k=1}^m U_{ik}\)）的最优估计，并修正了传统独立抽样的方差公式（\(\mu^2 = \frac{m-\kappa}{\kappa(m-1)}\sigma_U^2\)，其中\(m\)为总地块数，\(\kappa\)为抽样地块数）（Neyman, 1990, p. 468）。

这篇文献的价值远超农业领域 —— 它将 “因果效应” 定义为 “同一单元在不同处理下的潜在结果差异”，为后续所有基于潜在结果的因果推断（如倾向得分、双重差分）提供了理论起点。

2. Haavelmo (1943)：结构方程模型（SEM）的机制建模

在 Neyman 奠定潜在结果框架的同时，Trygve Haavelmo 于 1943 年在《Econometrica》发表论文，首次将经济学中的 “联立方程组” 从 “数学求解工具” 升级为 “因果机制载体”，为结构方程模型（SEM）进入因果推断奠定基础。

经济学研究的核心难题是：消费、投资、收入等变量相互依赖，如何区分 “因果效应” 与 “关联关系”？ Haavelmo 的突破在于：

赋予联立方程组因果含义：每个方程对应一个可解释的经济因果过程，而非单纯的变量数值关系。例如，消费方程\(u_t = \alpha r_t + \beta + x_t\)刻画 “收入\(r_t\)（原因）→消费\(u_t\)（结果）”，投资方程\(v_t = \kappa(u_t-u_{t-1}) + y_t\)刻画 “消费变化（原因）→投资\(v_t\)（结果）”，其中\(x_t\)、\(y_t\)为 “随机误差项”—— 代表未观测的复杂因素（如消费者心情、临时政策冲击），而非测量误差（Haavelmo, 1943, p. 6）。
批判 “单独估计” 的偏差：指出传统方法将联立方程拆分（如用最小二乘法单独估计消费方程）会因变量间的因果依赖（如收入\(r_t\)依赖消费\(u_t\)，\(u_t\)又依赖\(r_t\)）导致参数偏差。例如，若\(X = bY + \epsilon_2\)、\(Y = aX + \epsilon_1\)，单独估计得\(E(Y|X)=aX\)，但联立后实际\(E(Y|X) \neq aX\)（Haavelmo, 1943, p. 8）。
提出 “联合分布估计” 范式：主张基于误差项的联合概率分布，推导可观测变量（消费、投资、收入）的联合分布，再用最大似然法估计因果参数（如\(\alpha\)、\(\kappa\)），确保估计无偏（Haavelmo, 1943, §3）。

这篇文献的关键在于：它让 SEM 从 “描述关联” 转向 “刻画因果生成机制”，为后续非参数 SEM（Pearl, 2009）和多领域因果建模（如社会学的潜在变量分析）提供了经济学视角的理论支撑。

3. Wright (1934)：路径分析与 DAG 的雏形 —— 因果关系生成

1934 年，Sewall Wright 在《The Annals of Mathematical Statistics》发表论文，首次提出 “路径分析” 方法，构建了 “有向图 + 路径系数” 的线性因果建模框架，直接为后续有向无环图（DAG）和 SEM 的 “因果路径可视化” 提供核心思想。

Wright 的突破针对一个经典问题：如何区分 “直接因果效应” 与 “间接因果效应”（如遗传、环境对生物性状的影响）？ 他的解决方案是 “图形化 + 定量化”：

路径图编码因果拓扑：用 “单向有向箭头”（如\(A \to B\)）表示 “\(A\)是\(B\)的直接原因”，用 “双箭头” 表示 “变量相关但无明确因果方向”（如父亲身高与母亲身高），用 “残差项” 表示未观测的次要因果因素（Wright, 1934, p. 165）。这种符号体系，正是现代 DAG“父节点→子节点” 定义的直接起源。
路径系数量化效应强度：路径系数是标准化后的直接因果效应（取值 [-1,1]），例如 “窝崽数量→豚鼠出生体重” 的路径系数为 - 0.57，代表 “窝崽数量每增加 1 个标准差，出生体重减少 0.57 个标准差”（Wright, 1934, p. 180）。更重要的是，他推导了 “总相关性拆解公式”\(r_{0g} = \sum P_{0i}r_{gi}\)，首次将 “总相关” 拆分为 “各因果路径的贡献之和”（如豚鼠出生体重与窝崽数量的总相关 - 0.66，可拆分为 “窝崽数量→生长速率→体重”（-0.51）和 “窝崽数量→孕期→体重”（-0.15））（Wright, 1934, p. 182）。
验证因果机制的实践价值：通过豚鼠毛色、人类智力等案例，证明路径分析可区分 “遗传效应” 与 “环境效应”（如豚鼠毛色的遗传贡献占 38%，个体环境贡献占 53%），避免了传统 “从相关推因果” 的误区（Wright, 1934, §4）。

这篇文献的里程碑意义在于：它首次将抽象的因果关系转化为 “看得见、算得清” 的工具，路径图的可视化逻辑被 DAG 完整继承，路径系数的效应分解思想则成为 SEM“直接 / 间接效应分析” 的核心。

二、观测研究的突破性工具：Rosenbaum & Rubin (1983)—— 倾向得分解决 “混杂难题”

随着因果推断从实验研究（如农业、RCT）拓展到观测研究（如医学疗效对比、政策评估），新的挑战出现了：无随机分配时，如何消除混杂变量（如患者病情、家庭背景）的偏差？ Paul R. Rosenbaum 与 Donald B. Rubin 1983 年发表于《Biometrika》的论文，首次提出 “倾向得分” 概念，为这一难题提供了统一解决方案。

倾向得分：从 “维度灾难” 到 “单变量调整”

观测研究的核心困境是 “维度灾难”—— 当混杂变量较多时（如医学研究的数十个临床指标），传统匹配或分层会因 “子层空值” 失效。Rosenbaum 与 Rubin 的解决方案是 “浓缩混杂信息”：

定义倾向得分：倾向得分\(e(X_i)\)是 “给定协变量\(X_i\)时，单元\(i\)被分配到处理组（\(W_i=1\)）的条件概率”，即\(e(X_i) = P(W_i=1 \mid X_i)\)（Rosenbaum & Rubin, 1983, p. 41）。例如，一位年轻、无并发症的患者接受手术的倾向得分可能为 0.8，而一位年老、有基础病的患者可能为 0.2。
三大定理证明有效性：

倾向得分是平衡得分：给定倾向得分后，协变量与处理分配条件独立（\(X \perp W \mid e(X)\)），即倾向得分相同的处理 - 对照单元，所有协变量分布完全平衡（Rosenbaum & Rubin, 1983, Theorem 1）。
倾向得分是最粗平衡得分：所有能实现平衡的得分（如原始协变量\(X\)）都需包含倾向得分的信息，而倾向得分是信息损失最少的简化形式（Rosenbaum & Rubin, 1983, Theorem 2）。
强可忽略性下的无偏性：若处理分配满足 “强可忽略性”（\((Y_1,Y_0) \perp W \mid X\)且\(0<P(W=1|X)<1\)），则给定倾向得分后强可忽略性仍成立，基于倾向得分的调整可无偏估计平均治疗效应（ATE）（Rosenbaum & Rubin, 1983, Theorem 3）。

三大实用应用场景：
- 倾向得分匹配：为每个处理单元匹配倾向得分最接近的对照单元，模拟随机实验的平衡效果，偏差可减少 67%-98%（Rosenbaum & Rubin, 1983, Table 1）。
- 倾向得分分层：按倾向得分分 5-10 个子层，层内比较效应后加权平均，如冠心病研究中，74 个协变量的初始不平衡（F 统计量最大 51.8）在分层后完全消除（F 统计量最大 3.6）（Rosenbaum & Rubin, 1983, Table 2）。
- 倾向得分协变量调整：用单变量倾向得分替代多变量回归，避免多重共线性，提升估计稳健性（Rosenbaum & Rubin, 1983, §3.4）。

这篇文献之所以成为 “观测研究因果推断的基石”（2025 年谷歌学术引用量近 4 万次），在于它用一个简单的概率值解决了复杂的混杂问题，让因果推断从 “实验专属” 走向 “观测研究普及”，至今仍是医学、社会学、经济学的主流工具。

三、未来挑战与跨学科方向：Cinelli et al. (2025)—— 因果推断的 “下一个十年”

基于前四篇文献奠定的框架与工具，因果推断面临新的时代课题：大数据、AI、复杂系统如何推动因果推断发展？跨学科研究有哪些核心难题？ Cinelli 等人 2025 年的文献（聚焦因果推断 12 大挑战），为这些问题提供了答案，为生物医学、社会科学、计算机科学的未来研究指明方向。

12 大挑战的核心方向（Cinelli et al., 2025）：

复杂实验设计：线上 A/B 测试、移动健康实验的 “自适应设计”“平台试验（动态纳入新干预）” 需解决多重比较、时序误差问题。
干扰与系统效应：违背 SUTVA 假设（如疫苗的群体免疫、社交网络的信息传播）时，需通过 “暴露映射” 量化单元间的溢出效应。
异质性效应与政策学习：高维 / 非欧数据（图、文本）的条件平均处理效应（CATE）估计，以及公平性约束下的最优政策（如\(\pi(x) = \mathbb{1}\{CATE(x) > 0\}\)）设计。
高维中介与机制分析：多组学、文本数据中的 “中介变量识别”（如基因表达如何介导药物疗效），以及时序中介效应的动态建模。
LLM 与因果推断：利用 LLM 处理多模态数据、生成 “人工智能体” 开展合成实验，但需解决合成结果的验证、LLM 混淆相关与因果的问题。

这些挑战的本质，是因果推断在 “复杂数据 + 跨学科需求” 下的延伸 —— 它们均基于前四篇文献的理论基础（如潜在结果、SEM、DAG、倾向得分），同时要求新的方法创新（如高维因果发现、AI 辅助的反事实推理）。

结语：因果推断的 “承上启下” 之路

从 Neyman 1923 年（1990 英译）的潜在结果，到 Haavelmo 1943 年的 SEM 因果机制，再到 Wright 1934 年的路径分析与 Rosenbaum & Rubin 1983 年的倾向得分，最后到 Cinelli 2025 年的跨学科挑战，因果推断的发展脉络清晰而连贯：框架奠基→工具突破→未来拓展。

这五篇文献的共同价值，在于它们始终围绕 “如何科学回答因果问题” 这一核心 ——Neyman 让因果效应可定义，Haavelmo 让因果机制可建模，Wright 让因果关系可可视化，Rosenbaum & Rubin 让观测研究的因果推断可操作，Cinelli 则让因果推断在新时代的跨学科应用中可延伸。对于今天的研究者而言，重温这些经典不仅能掌握因果推断的 “硬核工具”，更能理解其 “从问题出发、为实践服务” 的本质 —— 这正是因果推断跨越百年仍充满活力的关键。

参考文献

Cinelli, C., & Hazlett, C. (2025). Challenges for causal inference in the era of big data and machine learning. Annual Review of Statistics and Its Application, 12, 1–26. https://doi.org/10.1146/annurev-statistics-031024-021512
Haavelmo, T. (1943). The statistical implications of a system of simultaneous equations. Econometrica, 11(1), 1–12. https://doi.org/10.2307/1905714
Neyman, J. (1990). On the application of probability theory to agricultural experiments. Essay on principles (Section 9, Translated). Statistical Science, 5(4), 465–472. https://doi.org/10.1214/ss/1177012044
Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55. https://doi.org/10.1093/biomet/70.1.41
Wright, S. (1934). The method of path coefficients. The Annals of Mathematical Statistics, 5(3), 161–215. https://doi.org/10.1214/aoms/1177732946

因果推断：理论奠基、工具演进与未来挑战

因果推断系列导航

一、因果推断框架的奠基：从 “潜在结果” 到 “因果生成”

1. Neyman (1990)：潜在结果框架的起源 —— 农业实验中的因果思维

2. Haavelmo (1943)：结构方程模型（SEM）的机制建模

3. Wright (1934)：路径分析与 DAG 的雏形 —— 因果关系生成

二、观测研究的突破性工具：Rosenbaum & Rubin (1983)—— 倾向得分解决 “混杂难题”

倾向得分：从 “维度灾难” 到 “单变量调整”

三、未来挑战与跨学科方向：Cinelli et al. (2025)—— 因果推断的 “下一个十年”

12 大挑战的核心方向（Cinelli et al., 2025）：

结语：因果推断的 “承上启下” 之路

参考文献

因果推断系列导航

因果推断：理论奠基、工具演进与未来挑战

因果推断 系列导航

一、因果推断框架的奠基：从 “潜在结果” 到 “因果生成”

1. Neyman (1990)：潜在结果框架的起源 —— 农业实验中的因果思维

2. Haavelmo (1943)：结构方程模型（SEM）的机制建模

3. Wright (1934)：路径分析与 DAG 的雏形 —— 因果关系生成

二、观测研究的突破性工具：Rosenbaum & Rubin (1983)—— 倾向得分解决 “混杂难题”

倾向得分：从 “维度灾难” 到 “单变量调整”

三、未来挑战与跨学科方向：Cinelli et al. (2025)—— 因果推断的 “下一个十年”

12 大挑战的核心方向（Cinelli et al., 2025）：

结语：因果推断的 “承上启下” 之路

参考文献

因果推断 系列导航

因果推断系列导航

因果推断系列导航