2 min read

LLM：幻觉治理

2025/10/28

在人工智能技术快速发展的当下，大语言模型（LLM）广泛应用于内容创作、知识问答等多个领域。但 “幻觉” 问题，即模型生成看似合理却与事实不符的内容，始终是影响其可靠性的关键因素。Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala 与 Edwin Zhang（2025）未发表的研究《Why Language Models Hallucinate》，构建了理解这一问题的核心理论框架；本文讨论结合生活实例，剖析 LLM 幻觉的本质、技术发展逻辑与治理方法。

一、LLM 幻觉的本质：并非缺陷，而是机制偏差

长期以来，人们常将 LLM 的幻觉视为模型 “能力不足” 的表现，但 Kalai 等人（2025）的研究颠覆了这一认知：幻觉的根源并非模型本身的缺陷，而是训练目标与评估机制的系统性偏差。播客中引用的两个案例直观印证了这一结论：当用户询问特定人物生日时，DeepSeek-V3 模型输出了不存在的日期；在回答 “某县城马拉松冠军” 时，模型甚至虚构了人物姓名与成绩。这些 “表面合理但事实错误” 的输出，本质是模型在现有机制下的 “理性选择”—— 而非随机失误。

研究进一步指出，幻觉的产生源于双重机制偏差（Kalai et al., 2025）：

评估机制的误导性：传统 “二元评分”（即仅判断输出 “对 / 错”）未考虑 “不确定” 场景，导致模型为追求高评分而 “宁错勿空”，即便对 “单例事实”（如仅在训练数据中出现一次的信息）缺乏把握，仍会强行生成内容；
训练数据的记忆局限：LLM 对 “单例事实” 的记忆能力薄弱，类似人类 “只见过一次的路人电话，转头就模糊”，这种记忆缺陷在缺乏有效纠错机制时，直接转化为幻觉输出。

二、从 “造房子” 看 LLM 技术演进

以 “100 万人住房安置” 为类比，本文拆解支撑模型发展的四大网络结构 —— 这一演进过程也间接解释了幻觉问题的技术根源与解决潜力：

1. 全连接层：无规划的 “散建平房区”

全连接层如同让 100 万人全部建造散建平房，每户人家都需与其他所有住户直接打通通道。这种结构对应技术上 “每一层神经元与下一层全连接” 的特点，参数规模呈指数级增长（如 100 万神经元的连接数达 100 万 ²）。其优势是简单直接，适合 “判断图片是否为猫” 等简单任务，但因 “空间复杂度” 过高，根本无法处理长文本或高清图像 —— 这也决定了早期模型难以应对复杂信息，易出现低级幻觉。

2. RNN：按序排列的 “联排别墅群”

为解决平房区的混乱，RNN 将 100 万人分为若干联排别墅，每户仅与前后邻居连通，需按顺序串门。这种 “序列依赖” 特性使其能处理文本等时序数据（如写小说时记住上一段剧情），但缺陷同样明显：处理长序列（如 1000 字文章）时，早期信息会逐渐 “模糊”（即 “梯度消失” 问题），就像联排末端的住户记不清最开头的邻居 —— 这直接导致 RNN 在长文本生成中频繁出现逻辑断裂型幻觉。

3. CNN：户型统一的 “小区组团住宅”

CNN 通过 “小区组团 + 共享设施” 优化结构：100 万人被分为多个小区，每个小区采用统一户型（类比 “卷积核”），并共享便利店（类比 “池化层”）。这种设计让模型擅长提取局部特征（如识别图片中 “猫的耳朵”），通过共享参数减少冗余，但短板在于 “只见树木不见森林”—— 无法理解 “猫坐在沙发上，沙发在客厅里” 的全局逻辑，因此在需要全局关联的知识问答中，易产生 “局部正确但整体错误” 的幻觉。

4. Transformer：带 “全域导航” 的 “智能社区”

Transformer 的出现是技术的革命性突破：它打破顺序与户型限制，为每户配备 “智能导航系统”（类比 “注意力机制”），住户可直接定位最相关的对象，无需按顺序串门。更关键的是 “多头注意力” 设计 —— 每户可同时开启多个导航（如 “生活相关”“工作相关”“兴趣相关”），并行处理全局关联。这种结构让 LLM 能高效处理长文本（如 10 万字书籍），并精准捕捉语义逻辑，从技术上大幅降低了全局关联型幻觉的概率。OpenAI 通过强化学习优化注意力机制、DeepSeek 借助提示词工程提升导航精度，进一步释放了 Transformer 的潜力。

三、LLM 幻觉的治理路径：从机制优化到技术协同

基于对幻觉本质与技术逻辑的理解，Kalai 等人（2025）联合播客讨论提出三类治理方案，核心策略为促使模型明确表示未知，避免生成虚假内容：

1. 重构训练目标：引入 “三分类输出”

摒弃传统 “二元评分”，将模型输出定义为 “正确 / 错误 / 不确定” 三类，并配套奖惩机制。例如，设定 “置信度阈值 t=0.75”：当模型对信息的把握度高于 t 时输出 “正确”，低于 t 时输出 “不确定”，若强行输出 “错误” 内容则严厉扣分。这种机制从根源上消除了模型 “宁错勿空” 的动力，播客中提到，采用该方案后，模型 “不确定” 输出占比提升 15%，幻觉率下降 22%（基于研究实验数据，Kalai et al., 2025）。

2. 强化 “单例事实” 记忆：结合外部知识库

针对模型对 “单例事实” 的记忆缺陷，播客建议将 LLM 与外部知识库联动 —— 模型在处理小众信息时，先 “查询知识库” 再生成内容，而非依赖内部模糊记忆。

四、结语：在技术演进中平衡 “能力” 与 “可靠”

Kalai 等人（2025）的研究揭示：LLM 的幻觉问题并非不可解，它既是技术发展的 “阶段性挑战”，也是推动模型从 “能生成” 向 “生成准” 跃迁的动力。从全连接层的 “混乱平房” 到 Transformer 的 “智能社区”，技术演进不断为幻觉治理提供新工具；而 “三分类输出”“知识库联动” 等方案，则让治理从 “被动纠错” 转向 “主动预防”。

参考文献

Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025, September). Why Language Models Hallucinate. Unpublished manuscript.