1 min read

LLM:关注因果推断研究进展

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:人机协作 2024-05-19
3 LLM:分层管理风险定性 2024-08-08
4 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

最近看到《CausalEval: Towards Better Causal Reasoning in Language Models》(Yu et al., 2025)这篇研究,梳理了大语言模型(LLMs)在因果推理(Causal Reasoning, CR)方面的研究情况。LLMs 虽然在文本生成、知识问答这些任务上表现不错,但在理解因果关系上还有明显不足。这里就结合这项研究,聊聊 LLM 因果推理的关键内容、提升方法和实验结果。

一、因果推理的核心框架:Pearl 因果阶梯

LLM 因果推理能力的评估与提升,需以明确的理论框架为基础。《CausalEval》以 Pearl 提出的 “因果阶梯”(Ladder of Causality)为核心,将因果推理划分为三个层次,每个层次对应不同的逻辑深度与数学表达(Yu et al., 2025):

1. 关联(Association)

  • 定义:通过观察数据识别变量间的相关性,是因果推理的基础层。

  • 数学表达:以条件概率 \(P(y|x)\) 表示,即 “在变量 x 发生的条件下,变量 y 发生的概率”。

  • 典型查询:“是什么(What is?)”,例如 “观察到‘下雨’时,’地面湿’的概率是多少?”

2. 干预(Intervention)

  • 定义:分析主动改变某一变量(干预)对另一变量的影响,需排除混杂因素干扰。

  • 数学表达:引入 Pearl 的 do - 算子,以 \(P(y|do(x), z)\) 表示,其中 “do (x)” 代表对变量 x 进行主动干预,z 为控制变量。

  • 典型查询:“如果做了 X 会怎样(What if?)”,例如 “如果主动‘浇水’(do (浇水)),同时控制‘天气’变量,’植物生长’的概率是多少?”

3. 反事实(Counterfactual)

  • 定义:对 “未发生的假设场景” 进行推理,是因果推理的最高层,也是 LLM 当前的核心短板(Yu et al., 2025)。

  • 数学表达:以 \(P(y_x | x', y')\) 表示,其中 “\(y_x\)” 代表 “若变量 x 处于某一假设状态时,变量 y 的结果”,\(x'\)\(y'\)为现实中的变量状态。

  • 典型查询:“为什么(Why?)”,例如 “如果昨天‘没下雨’(假设状态),而现实中‘地面湿’,那么‘地面原本会干’的概率是多少?”

二、LLM 提升因果推理的两大核心角色

《CausalEval》将提升 LLM 因果推理能力的研究归纳为两大方向:使其充当 “因果推理引擎”,或作为辅助者支持传统因果推理方法(Yu et al., 2025)。

1. 因果推理引擎:直接执行因果推理

LLM 通过以下方式训练为独立解决因果任务的系统:

  • 微调:用 “因果对” 或结构因果模型进行监督微调,如 “因果效应微调” 可增量学习因果关系

  • 提示工程:通过 “因果链式思维” 等设计引导推理,或用 “因果提示微调” 区分相关性与因果性

  • 工具集成:调用知识图谱、Python 脚本等外部工具增强分析能力

2. 传统方法辅助者:支撑因果分析流程

LLM 在此主要解决传统方法的数据与信息瓶颈:

  • 信息提取:从文本中抽取因果变量等关键信息

  • 数据生成:合成因果对、反事实样本等数据集

三、关键实验结论:LLM 因果推理的现状与差距

《CausalEval》对 Mistral、Gemma 等主流 LLM 在 9 项因果任务中评估发现(Yu et al., 2025):

  1. 性能差距显著:人类准确率超 90%,最优 LLM(GPT-4o+CoT)在 Tram 任务仅 87%,反事实与多变量分析任务差距更明显。

  2. CoT 提示有效:多数 LLM 加入 “链式思维” 提示后,准确率提升 5%-15%(如 Gemma-2-9B 在 COPA 任务从 91.2% 升至 96.0%)。

  3. 规模架构并重:模型性能与规模正相关,但架构适配更关键,如 Mistral 的 MoE 架构规模扩大后增益有限 。

四、总结与展望

《CausalEval》通过系统梳理与实验验证,明确了 LLM 因果推理的核心瓶颈(反事实推理薄弱)与有效提升路径(微调、提示工程、工具集成与辅助传统方法)。未来研究需进一步融合 Pearl 因果理论(如潜在结果框架)、提升数据效率(解决反事实数据稀缺),并设计因果感知的 LLM 内部机制(如双网络架构、因果优先注意力),推动 LLM 从 “识别相关性” 迈向 “理解因果性” 的真正智能。

参考文献

  • Yu, L., Chen, D., Xiong, S., Wu, Q., Liu, Q., Li, D., Chen, Z., Liu, X., & Pan, L. (2025). CausalEval: Towards Better Causal Reasoning in Language Models. arXiv preprint arXiv:2410.16676. https://arxiv.org/pdf/2410.16676

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:人机协作 2024-05-19
3 LLM:分层管理风险定性 2024-08-08
4 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03