2 min read

LLM:幻觉治理

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
27 LLM:近似on-policy数据抗遗忘 2025-10-21
28 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在人工智能技术快速发展的当下,大语言模型(LLM)广泛应用于内容创作、知识问答等多个领域。但 “幻觉” 问题,即模型生成看似合理却与事实不符的内容,始终是影响其可靠性的关键因素。Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala 与 Edwin Zhang(2025)未发表的研究《Why Language Models Hallucinate》,构建了理解这一问题的核心理论框架;本文讨论结合生活实例,剖析 LLM 幻觉的本质、技术发展逻辑与治理方法。

一、LLM 幻觉的本质:并非缺陷,而是机制偏差

长期以来,人们常将 LLM 的幻觉视为模型 “能力不足” 的表现,但 Kalai 等人(2025)的研究颠覆了这一认知:幻觉的根源并非模型本身的缺陷,而是训练目标与评估机制的系统性偏差。播客中引用的两个案例直观印证了这一结论:当用户询问特定人物生日时,DeepSeek-V3 模型输出了不存在的日期;在回答 “某县城马拉松冠军” 时,模型甚至虚构了人物姓名与成绩。这些 “表面合理但事实错误” 的输出,本质是模型在现有机制下的 “理性选择”—— 而非随机失误。

研究进一步指出,幻觉的产生源于双重机制偏差(Kalai et al., 2025):

  1. 评估机制的误导性:传统 “二元评分”(即仅判断输出 “对 / 错”)未考虑 “不确定” 场景,导致模型为追求高评分而 “宁错勿空”,即便对 “单例事实”(如仅在训练数据中出现一次的信息)缺乏把握,仍会强行生成内容;

  2. 训练数据的记忆局限:LLM 对 “单例事实” 的记忆能力薄弱,类似人类 “只见过一次的路人电话,转头就模糊”,这种记忆缺陷在缺乏有效纠错机制时,直接转化为幻觉输出。

二、从 “造房子” 看 LLM 技术演进

以 “100 万人住房安置” 为类比,本文拆解支撑模型发展的四大网络结构 —— 这一演进过程也间接解释了幻觉问题的技术根源与解决潜力:

1. 全连接层:无规划的 “散建平房区”

全连接层如同让 100 万人全部建造散建平房,每户人家都需与其他所有住户直接打通通道。这种结构对应技术上 “每一层神经元与下一层全连接” 的特点,参数规模呈指数级增长(如 100 万神经元的连接数达 100 万 ²)。其优势是简单直接,适合 “判断图片是否为猫” 等简单任务,但因 “空间复杂度” 过高,根本无法处理长文本或高清图像 —— 这也决定了早期模型难以应对复杂信息,易出现低级幻觉。

2. RNN:按序排列的 “联排别墅群”

为解决平房区的混乱,RNN 将 100 万人分为若干联排别墅,每户仅与前后邻居连通,需按顺序串门。这种 “序列依赖” 特性使其能处理文本等时序数据(如写小说时记住上一段剧情),但缺陷同样明显:处理长序列(如 1000 字文章)时,早期信息会逐渐 “模糊”(即 “梯度消失” 问题),就像联排末端的住户记不清最开头的邻居 —— 这直接导致 RNN 在长文本生成中频繁出现逻辑断裂型幻觉。

3. CNN:户型统一的 “小区组团住宅”

CNN 通过 “小区组团 + 共享设施” 优化结构:100 万人被分为多个小区,每个小区采用统一户型(类比 “卷积核”),并共享便利店(类比 “池化层”)。这种设计让模型擅长提取局部特征(如识别图片中 “猫的耳朵”),通过共享参数减少冗余,但短板在于 “只见树木不见森林”—— 无法理解 “猫坐在沙发上,沙发在客厅里” 的全局逻辑,因此在需要全局关联的知识问答中,易产生 “局部正确但整体错误” 的幻觉。

4. Transformer:带 “全域导航” 的 “智能社区”

Transformer 的出现是技术的革命性突破:它打破顺序与户型限制,为每户配备 “智能导航系统”(类比 “注意力机制”),住户可直接定位最相关的对象,无需按顺序串门。更关键的是 “多头注意力” 设计 —— 每户可同时开启多个导航(如 “生活相关”“工作相关”“兴趣相关”),并行处理全局关联。这种结构让 LLM 能高效处理长文本(如 10 万字书籍),并精准捕捉语义逻辑,从技术上大幅降低了全局关联型幻觉的概率。OpenAI 通过强化学习优化注意力机制、DeepSeek 借助提示词工程提升导航精度,进一步释放了 Transformer 的潜力。

三、LLM 幻觉的治理路径:从机制优化到技术协同

基于对幻觉本质与技术逻辑的理解,Kalai 等人(2025)联合播客讨论提出三类治理方案,核心策略为促使模型明确表示未知,避免生成虚假内容:

1. 重构训练目标:引入 “三分类输出”

摒弃传统 “二元评分”,将模型输出定义为 “正确 / 错误 / 不确定” 三类,并配套奖惩机制。例如,设定 “置信度阈值 t=0.75”:当模型对信息的把握度高于 t 时输出 “正确”,低于 t 时输出 “不确定”,若强行输出 “错误” 内容则严厉扣分。这种机制从根源上消除了模型 “宁错勿空” 的动力,播客中提到,采用该方案后,模型 “不确定” 输出占比提升 15%,幻觉率下降 22%(基于研究实验数据,Kalai et al., 2025)。

2. 强化 “单例事实” 记忆:结合外部知识库

针对模型对 “单例事实” 的记忆缺陷,播客建议将 LLM 与外部知识库联动 —— 模型在处理小众信息时,先 “查询知识库” 再生成内容,而非依赖内部模糊记忆。

四、结语:在技术演进中平衡 “能力” 与 “可靠”

Kalai 等人(2025)的研究揭示:LLM 的幻觉问题并非不可解,它既是技术发展的 “阶段性挑战”,也是推动模型从 “能生成” 向 “生成准” 跃迁的动力。从全连接层的 “混乱平房” 到 Transformer 的 “智能社区”,技术演进不断为幻觉治理提供新工具;而 “三分类输出”“知识库联动” 等方案,则让治理从 “被动纠错” 转向 “主动预防”。

参考文献

Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025, September). Why Language Models Hallucinate. Unpublished manuscript.

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
27 LLM:近似on-policy数据抗遗忘 2025-10-21
28 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03