最近看到《CausalEval: Towards Better Causal Reasoning in Language Models》(Yu et al., 2025)这篇研究,梳理了大语言模型(LLMs)在因果推理(Causal Reasoning, CR)方面的研究情况。LLMs 虽然在文本生成、知识问答这些任务上表现不错,但在理解因果关系上还有明显不足。这里就结合这项研究,聊聊 LLM 因果推理的关键内容、提升方法和实验结果。
一、因果推理的核心框架:Pearl 因果阶梯
LLM 因果推理能力的评估与提升,需以明确的理论框架为基础。《CausalEval》以 Pearl 提出的 “因果阶梯”(Ladder of Causality)为核心,将因果推理划分为三个层次,每个层次对应不同的逻辑深度与数学表达(Yu et al., 2025):
1. 关联(Association)
定义:通过观察数据识别变量间的相关性,是因果推理的基础层。
数学表达:以条件概率 \(P(y|x)\) 表示,即 “在变量 x 发生的条件下,变量 y 发生的概率”。
典型查询:“是什么(What is?)”,例如 “观察到‘下雨’时,’地面湿’的概率是多少?”
2. 干预(Intervention)
定义:分析主动改变某一变量(干预)对另一变量的影响,需排除混杂因素干扰。
数学表达:引入 Pearl 的 do - 算子,以 \(P(y|do(x), z)\) 表示,其中 “do (x)” 代表对变量 x 进行主动干预,z 为控制变量。
典型查询:“如果做了 X 会怎样(What if?)”,例如 “如果主动‘浇水’(do (浇水)),同时控制‘天气’变量,’植物生长’的概率是多少?”
3. 反事实(Counterfactual)
定义:对 “未发生的假设场景” 进行推理,是因果推理的最高层,也是 LLM 当前的核心短板(Yu et al., 2025)。
数学表达:以 \(P(y_x | x', y')\) 表示,其中 “\(y_x\)” 代表 “若变量 x 处于某一假设状态时,变量 y 的结果”,\(x'\)和\(y'\)为现实中的变量状态。
典型查询:“为什么(Why?)”,例如 “如果昨天‘没下雨’(假设状态),而现实中‘地面湿’,那么‘地面原本会干’的概率是多少?”
二、LLM 提升因果推理的两大核心角色
《CausalEval》将提升 LLM 因果推理能力的研究归纳为两大方向:使其充当 “因果推理引擎”,或作为辅助者支持传统因果推理方法(Yu et al., 2025)。
1. 因果推理引擎:直接执行因果推理
LLM 通过以下方式训练为独立解决因果任务的系统:
微调:用 “因果对” 或结构因果模型进行监督微调,如 “因果效应微调” 可增量学习因果关系
提示工程:通过 “因果链式思维” 等设计引导推理,或用 “因果提示微调” 区分相关性与因果性
工具集成:调用知识图谱、Python 脚本等外部工具增强分析能力
2. 传统方法辅助者:支撑因果分析流程
LLM 在此主要解决传统方法的数据与信息瓶颈:
信息提取:从文本中抽取因果变量等关键信息
数据生成:合成因果对、反事实样本等数据集
三、关键实验结论:LLM 因果推理的现状与差距
《CausalEval》对 Mistral、Gemma 等主流 LLM 在 9 项因果任务中评估发现(Yu et al., 2025):
性能差距显著:人类准确率超 90%,最优 LLM(GPT-4o+CoT)在 Tram 任务仅 87%,反事实与多变量分析任务差距更明显。
CoT 提示有效:多数 LLM 加入 “链式思维” 提示后,准确率提升 5%-15%(如 Gemma-2-9B 在 COPA 任务从 91.2% 升至 96.0%)。
规模架构并重:模型性能与规模正相关,但架构适配更关键,如 Mistral 的 MoE 架构规模扩大后增益有限 。
四、总结与展望
《CausalEval》通过系统梳理与实验验证,明确了 LLM 因果推理的核心瓶颈(反事实推理薄弱)与有效提升路径(微调、提示工程、工具集成与辅助传统方法)。未来研究需进一步融合 Pearl 因果理论(如潜在结果框架)、提升数据效率(解决反事实数据稀缺),并设计因果感知的 LLM 内部机制(如双网络架构、因果优先注意力),推动 LLM 从 “识别相关性” 迈向 “理解因果性” 的真正智能。
参考文献
- Yu, L., Chen, D., Xiong, S., Wu, Q., Liu, Q., Li, D., Chen, Z., Liu, X., & Pan, L. (2025). CausalEval: Towards Better Causal Reasoning in Language Models. arXiv preprint arXiv:2410.16676. https://arxiv.org/pdf/2410.16676