LLM：关注因果推断研究进展

最近看到《CausalEval: Towards Better Causal Reasoning in Language Models》（Yu et al., 2025）这篇研究，梳理了大语言模型（LLMs）在因果推理（Causal Reasoning, CR）方面的研究情况。LLMs 虽然在文本生成、知识问答这些任务上表现不错，但在理解因果关系上还有明显不足。这里就结合这项研究，聊聊 LLM 因果推理的关键内容、提升方法和实验结果。

一、因果推理的核心框架：Pearl 因果阶梯

LLM 因果推理能力的评估与提升，需以明确的理论框架为基础。《CausalEval》以 Pearl 提出的 “因果阶梯”（Ladder of Causality）为核心，将因果推理划分为三个层次，每个层次对应不同的逻辑深度与数学表达（Yu et al., 2025）：

1. 关联（Association）

定义：通过观察数据识别变量间的相关性，是因果推理的基础层。
数学表达：以条件概率 \(P(y|x)\) 表示，即 “在变量 x 发生的条件下，变量 y 发生的概率”。
典型查询：“是什么（What is?）”，例如 “观察到‘下雨’时，’地面湿’的概率是多少？”

2. 干预（Intervention）

定义：分析主动改变某一变量（干预）对另一变量的影响，需排除混杂因素干扰。
数学表达：引入 Pearl 的 do - 算子，以 \(P(y|do(x), z)\) 表示，其中 “do (x)” 代表对变量 x 进行主动干预，z 为控制变量。
典型查询：“如果做了 X 会怎样（What if?）”，例如 “如果主动‘浇水’（do (浇水)），同时控制‘天气’变量，’植物生长’的概率是多少？”

3. 反事实（Counterfactual）

定义：对 “未发生的假设场景” 进行推理，是因果推理的最高层，也是 LLM 当前的核心短板（Yu et al., 2025）。
数学表达：以 \(P(y_x | x', y')\) 表示，其中 “\(y_x\)” 代表 “若变量 x 处于某一假设状态时，变量 y 的结果”，\(x'\)和\(y'\)为现实中的变量状态。
典型查询：“为什么（Why?）”，例如 “如果昨天‘没下雨’（假设状态），而现实中‘地面湿’，那么‘地面原本会干’的概率是多少？”

二、LLM 提升因果推理的两大核心角色

《CausalEval》将提升 LLM 因果推理能力的研究归纳为两大方向：使其充当 “因果推理引擎”，或作为辅助者支持传统因果推理方法（Yu et al., 2025）。

1. 因果推理引擎：直接执行因果推理

LLM 通过以下方式训练为独立解决因果任务的系统：

微调：用 “因果对” 或结构因果模型进行监督微调，如 “因果效应微调” 可增量学习因果关系
提示工程：通过 “因果链式思维” 等设计引导推理，或用 “因果提示微调” 区分相关性与因果性
工具集成：调用知识图谱、Python 脚本等外部工具增强分析能力

2. 传统方法辅助者：支撑因果分析流程

LLM 在此主要解决传统方法的数据与信息瓶颈：

信息提取：从文本中抽取因果变量等关键信息
数据生成：合成因果对、反事实样本等数据集

三、关键实验结论：LLM 因果推理的现状与差距

《CausalEval》对 Mistral、Gemma 等主流 LLM 在 9 项因果任务中评估发现（Yu et al., 2025）：

性能差距显著：人类准确率超 90%，最优 LLM（GPT-4o+CoT）在 Tram 任务仅 87%，反事实与多变量分析任务差距更明显。
CoT 提示有效：多数 LLM 加入 “链式思维” 提示后，准确率提升 5%-15%（如 Gemma-2-9B 在 COPA 任务从 91.2% 升至 96.0%）。
规模架构并重：模型性能与规模正相关，但架构适配更关键，如 Mistral 的 MoE 架构规模扩大后增益有限。

四、总结与展望

《CausalEval》通过系统梳理与实验验证，明确了 LLM 因果推理的核心瓶颈（反事实推理薄弱）与有效提升路径（微调、提示工程、工具集成与辅助传统方法）。未来研究需进一步融合 Pearl 因果理论（如潜在结果框架）、提升数据效率（解决反事实数据稀缺），并设计因果感知的 LLM 内部机制（如双网络架构、因果优先注意力），推动 LLM 从 “识别相关性” 迈向 “理解因果性” 的真正智能。

参考文献

Yu, L., Chen, D., Xiong, S., Wu, Q., Liu, Q., Li, D., Chen, Z., Liu, X., & Pan, L. (2025). CausalEval: Towards Better Causal Reasoning in Language Models. arXiv preprint arXiv:2410.16676. https://arxiv.org/pdf/2410.16676