在自然语言处理领域,使用 ChatGPT、DeepSeek 等大型语言模型(LLM)时,模型输出与客观事实相悖却在语法和逻辑上具有表面合理性的现象引发了广泛关注,这一现象被学界定义为 “LLM 幻觉”。近期,OpenAI 与佐治亚理工学院学者 Adam Tauman Kalai 等人在《Why Language Models Hallucinate》(2025)中,对幻觉的产生机制进行了系统性探究。本文将基于该论文,深入剖析 LLM 产生幻觉的内在机理及其应对策略。
一、LLM 幻觉的理论界定
相较于大众认知中 “天马行空” 的模糊概念,Kalai 等(2025)从认知科学与自然语言处理交叉视角,将语言模型幻觉明确定义为:在语言表达形式、常识框架或上下文语境中呈现出表面合理性,但与训练数据、客观现实及用户输入要求存在显著偏差的错误输出。该定义强调 “表面合理性” 的核心特征,例如,在 OpenAI 团队对 DeepSeek-V3(600B 参数)进行的实验中,针对 “Adam Tauman Kalai 的生日” 这一查询,模型三次输出 “03-07”“15-06”“01-01”,尽管日期格式符合规范,但均与实际生日(秋季)存在偏差(Kalai et al., 2025)。这一现象表明,即使是当前性能最优(SOTA)的模型,也难以完全规避幻觉问题。
二、幻觉生成的双重作用机制
根据 Kalai 等(2025)的研究,LLM 幻觉并非源于模型能力缺陷,而是由特定的训练与评估机制导致。其形成主要涉及以下两个核心要素:
1. 二元评分机制的诱导偏差
传统 LLM 评估采用二元评分体系,即正确输出赋值为 1 分,错误或 “未知”(IDK)输出赋值为 0 分。这种评估方式存在数学期望偏差:假设模型对某问题的正确猜测概率为 p(0<p<1),其猜测策略的期望得分 E= p×1 + (1-p)×0 = p,恒大于选择 “未知” 的得分。例如,当模型面对 “2010 年某县城马拉松冠军” 这类缺乏训练数据支撑的问题时,基于期望收益最大化原则,模型更倾向于生成虚构答案。这种机制本质上形成了对猜测行为的正向激励与对诚实反馈的隐性惩罚。
2. 单例事实的记忆存储困境
“单例事实”(Single-Instance Fact)是导致幻觉的另一关键因素。Kalai 等(2025)将其定义为在训练数据中仅出现一次的孤立信息,如地方报社记者的私人信息、特定企业某次活动的细节等。由于缺乏重复训练的强化过程,模型难以对这类信息的真实性进行有效验证,导致其在记忆存储时无法建立可靠的语义关联。当用户查询涉及单例事实时,模型因缺乏有效检索依据,只能基于概率分布生成猜测性答案。相比之下,“爱因斯坦的生日” 这类在训练数据中高频出现的 “非单例事实”,模型能够形成稳定的记忆表征,从而显著降低错误率(Kalai et al., 2025)。
三、幻觉治理的优化路径
针对上述机制性问题,Kalai 等(2025)提出从评估范式与训练目标两方面进行系统性改进,以降低幻觉发生率:
1. 置信度阈值约束的评估体系重构
该方案引入 “置信度阈值 t” 作为输出决策条件,建立非线性奖惩机制:当模型输出置信度高于阈值 t 时,正确回答得 1 分,错误回答扣 t/(1-t) 分;当置信度低于 t 时,输出 “未知” 得 0 分。以 t=0.75 为例,错误回答将扣 3 分,此时模型若以 0.5 置信度进行猜测,其期望得分为 0.5×1 - 0.5×3 = -1,显著低于选择 “未知” 的得分。通过调整阈值参数(如 t=0.5 时扣 1 分,t=0.9 时扣 9 分),可实现对模型回答谨慎性的动态调控。
2. 三分类输出模式的训练目标优化
将传统的 “正确 / 错误” 二分类输出扩展为三分类体系:
- 类别 0:高置信度正确预测(Confident Correct);
- 类别 1:高置信度错误预测(Overconfident Wrong);
- 类别 2:低置信度或未知响应(置信度≤t)(Kalai et al., 2025)。
这种训练目标调整促使模型在面对不确定性时,能够基于置信度评估主动选择输出策略,而非盲目生成答案。值得注意的是,虽然检索增强生成(RAG)技术可补充部分知识,但由于未触及二元评分机制的根本问题,无法有效解决模型在信息缺失时的虚构倾向。
四、研究结论与展望
Kalai 等(2025)的研究突破了将幻觉归因于模型固有缺陷的传统认知,揭示其本质是评估与训练机制设计导致的系统性偏差。缓解 LLM 幻觉的关键在于重构评估规则,使模型在面对未知信息时更倾向于诚实反馈而非冒险猜测。未来研究可进一步探索动态置信度调节、多模态信息融合等技术,持续提升大语言模型的可靠性与可解释性。
参考文献
Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate.