1 min read

LLM:推理不可复现的探索

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

LLM已深度融入聊天机器人、医疗辅助、代码生成等领域,基准评分的准确性与可复现性是技术迭代的核心前提。然而,在NeurIPS 2025 oral一篇论文中指出,LLM推理存在隐蔽的不可复现问题,即便固定贪心解码(温度=0)与随机种子,系统配置的微小变化就可能导致结果大幅偏差(Yuan et al., 2025)。这一发现为LLM的可靠应用敲响警钟,也提供了切实的解决方案。

一、不可复现的核心表现:超出预期的结果波动

研究团队通过12种 runtime配置(2种GPU类型×2种GPU数量×3种批量大小),对4个主流LLM(含2个推理模型、2个非推理模型)及扩展模型Qwen3-32B展开测试,发现不可复现性主要体现在两方面:

其一,准确率波动显著。在BF16精度下,推理模型DeepSeek-R1-Distill-Qwen-7B在AIME’24任务中,因GPU类型、数量或批量大小不同,准确率波动最高达9.15%,而FP32精度下波动接近0(Yuan et al., 2025)。非推理模型虽波动较小,但BF16精度下仍存在明显差异。

其二,输出长度差异巨大。推理模型的生成文本长度标准差尤为突出,DeepSeek-R1-Distill-Llama-8B在AIME’24任务中,BF16精度下输出长度标准差达9348.59,意味着不同配置下可能出现9000+ token的长度差,严重影响依赖输出长度的评估场景(Yuan et al., 2025)。

更值得关注的是,这一问题并非特定推理框架独有,无论是vLLM还是HuggingFace Transformers,都存在类似现象,且在数学推理、代码生成等高精度任务中表现更明显(Yuan et al., 2025)。

二、根源解析:浮点运算特性与LLM机制的叠加效应

不可复现的核心根源,是浮点运算的非结合性与LLM自身特性的相互作用:

浮点运算的非结合性,指有限精度下加法顺序改变会导致结果不同((a+b)+c≠a+(b+c))。这里的核心是浮点数的精度差异,而精度由尾数(也称小数部分)决定,尾数是浮点数中记录有效数字细节的二进制位段,位数越多,能表示的数值越精细,舍入误差就越小。不同精度格式的尾数位数不同:BF16仅7位尾数,虽有1位隐含整数位(IEEE 754标准的优化设计,不占用尾数存储空间),实际有效精度约7.8位,舍入误差最大;FP16有10位尾数,搭配隐含整数位后有效精度约10.8位,误差居中;FP32则有23位尾数,加上隐含整数位,精度足够高,误差几乎可忽略(Yuan et al., 2025)。GPU并行计算、批量大小变化等会改变运算顺序,让这些微小误差被进一步放大。

而LLM的两大特性让这种误差放大:一是思维链累积效应,推理模型生成的长文本会让早期微小误差持续传递、放大;二是logit间距极小,推理模型Top-1与Top-2 token的概率差距常接近0,低精度的舍入误差极易导致token选择反转(Yuan et al., 2025)。

此外,系统配置也会加剧不稳定性:4 GPU比2 GPU的波动更明显,小批量(BS=8)比大批量(BS=32)误差累积更多,A100 GPU的硬件诱导变异性略高于L40S(Yuan et al., 2025)。

三、实验验证:精度与配置的关键影响

为验证结论的通用性,研究团队进行了多维度实验:

在模型规模上,32B的Qwen3-32B在AIME’24任务中,BF16精度下准确率标准差达5.02%,而FP32仅1.11%,说明大模型同样受此问题困扰(Yuan et al., 2025)。

在任务类型上,针对研究生级科学问题的GPQA Diamond基准测试中,DeepSeek-R1-Distill-Llama-8B的BF16精度准确率标准差为3.03%,高于FP32的1.96%,证明不可复现性并非局限于数学或代码任务(Yuan et al., 2025)。

在随机采样场景中,BF16精度仍存在额外方差,需更多运行次数才能获得稳定结果,例如AIME’24任务中,BF16精度需64轮运行才能接近FP32的稳定性,这无疑增加了计算成本(Yuan et al., 2025)。

四、解决方案:LayerCast混合精度推理

针对FP32精度内存占用过高(是BF16的2倍)的问题,研究团队提出LayerCast混合精度推理方案,实现稳定性与内存效率的平衡:

其核心逻辑是存储低精度、计算高精度:模型权重以BF16格式存储,降低内存占用;推理时逐层将权重即时转换为FP32,所有核心运算(矩阵乘法、注意力计算等)均在FP32精度下执行,从根源避免低精度误差(Yuan et al., 2025)。

实验结果显示,LayerCast的复现性与FP32几乎一致——DeepSeek-R1-Distill-Qwen-7B在MATH500任务中的发散率降至3.4%以下,同时内存占用比FP32节省34%,与纯BF16推理相当(Yuan et al., 2025)。目前该方案已作为vLLM非官方补丁发布,仅需少量代码修改即可集成。

结语

基于研究结论,团队给出三点切实建议:

  1. 关键任务优先选择高稳定性方案。医疗、金融、高精度推理等场景,建议直接使用FP32精度或LayerCast方案,避免因不可复现性导致决策风险。

  2. 优化模型评估流程。贪心解码时优先采用FP32精度,避免单轮运行得出误导性结论;随机采样时,BF16精度需增加运行次数(如AIME’24任务从16轮增至64轮),并同时报告均值、标准差及误差棒。

  3. 规范评估报告内容。报告中需明确标注推理精度、GPU类型与数量、批量大小等配置,便于他人复现结果,推动LLM研究的严谨性(Yuan et al., 2025)。

参考文献

Yuan, J., Li, H., Ding, X., Xie, W., Li, Y.-J., Zhao, W., Wan, K., Shi, J., Hu, X., & Liu, Z. (2025). Understanding and mitigating numerical sources of nondeterminism in LLM inference. 39th Conference on Neural Information Processing Systems (NeurIPS 2025). https://arxiv.org/pdf/2506.09501v2

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
14 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
15 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
16 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
17 LLM:撰写大模型落地提示词的关键 2025-08-27
18 LLM:从 Prompt 设计到工作流落地 2025-08-28
19 LLM:RL's Razor 抗遗忘 2025-09-04
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03