LLM：推理不可复现的探索

LLM已深度融入聊天机器人、医疗辅助、代码生成等领域，基准评分的准确性与可复现性是技术迭代的核心前提。然而，在NeurIPS 2025 oral一篇论文中指出，LLM推理存在隐蔽的不可复现问题，即便固定贪心解码（温度=0）与随机种子，系统配置的微小变化就可能导致结果大幅偏差（Yuan et al., 2025）。这一发现为LLM的可靠应用敲响警钟，也提供了切实的解决方案。

一、不可复现的核心表现：超出预期的结果波动

研究团队通过12种 runtime配置（2种GPU类型×2种GPU数量×3种批量大小），对4个主流LLM（含2个推理模型、2个非推理模型）及扩展模型Qwen3-32B展开测试，发现不可复现性主要体现在两方面：

其一，准确率波动显著。在BF16精度下，推理模型DeepSeek-R1-Distill-Qwen-7B在AIME’24任务中，因GPU类型、数量或批量大小不同，准确率波动最高达9.15%，而FP32精度下波动接近0（Yuan et al., 2025）。非推理模型虽波动较小，但BF16精度下仍存在明显差异。

其二，输出长度差异巨大。推理模型的生成文本长度标准差尤为突出，DeepSeek-R1-Distill-Llama-8B在AIME’24任务中，BF16精度下输出长度标准差达9348.59，意味着不同配置下可能出现9000+ token的长度差，严重影响依赖输出长度的评估场景（Yuan et al., 2025）。

更值得关注的是，这一问题并非特定推理框架独有，无论是vLLM还是HuggingFace Transformers，都存在类似现象，且在数学推理、代码生成等高精度任务中表现更明显（Yuan et al., 2025）。

二、根源解析：浮点运算特性与LLM机制的叠加效应

不可复现的核心根源，是浮点运算的非结合性与LLM自身特性的相互作用：

浮点运算的非结合性，指有限精度下加法顺序改变会导致结果不同（(a+b)+c≠a+(b+c)）。这里的核心是浮点数的精度差异，而精度由尾数（也称小数部分）决定，尾数是浮点数中记录有效数字细节的二进制位段，位数越多，能表示的数值越精细，舍入误差就越小。不同精度格式的尾数位数不同：BF16仅7位尾数，虽有1位隐含整数位（IEEE 754标准的优化设计，不占用尾数存储空间），实际有效精度约7.8位，舍入误差最大；FP16有10位尾数，搭配隐含整数位后有效精度约10.8位，误差居中；FP32则有23位尾数，加上隐含整数位，精度足够高，误差几乎可忽略（Yuan et al., 2025）。GPU并行计算、批量大小变化等会改变运算顺序，让这些微小误差被进一步放大。

而LLM的两大特性让这种误差放大：一是思维链累积效应，推理模型生成的长文本会让早期微小误差持续传递、放大；二是logit间距极小，推理模型Top-1与Top-2 token的概率差距常接近0，低精度的舍入误差极易导致token选择反转（Yuan et al., 2025）。

此外，系统配置也会加剧不稳定性：4 GPU比2 GPU的波动更明显，小批量（BS=8）比大批量（BS=32）误差累积更多，A100 GPU的硬件诱导变异性略高于L40S（Yuan et al., 2025）。

三、实验验证：精度与配置的关键影响

为验证结论的通用性，研究团队进行了多维度实验：

在模型规模上，32B的Qwen3-32B在AIME’24任务中，BF16精度下准确率标准差达5.02%，而FP32仅1.11%，说明大模型同样受此问题困扰（Yuan et al., 2025）。

在任务类型上，针对研究生级科学问题的GPQA Diamond基准测试中，DeepSeek-R1-Distill-Llama-8B的BF16精度准确率标准差为3.03%，高于FP32的1.96%，证明不可复现性并非局限于数学或代码任务（Yuan et al., 2025）。

在随机采样场景中，BF16精度仍存在额外方差，需更多运行次数才能获得稳定结果，例如AIME’24任务中，BF16精度需64轮运行才能接近FP32的稳定性，这无疑增加了计算成本（Yuan et al., 2025）。

四、解决方案：LayerCast混合精度推理

针对FP32精度内存占用过高（是BF16的2倍）的问题，研究团队提出LayerCast混合精度推理方案，实现稳定性与内存效率的平衡：

其核心逻辑是存储低精度、计算高精度：模型权重以BF16格式存储，降低内存占用；推理时逐层将权重即时转换为FP32，所有核心运算（矩阵乘法、注意力计算等）均在FP32精度下执行，从根源避免低精度误差（Yuan et al., 2025）。

实验结果显示，LayerCast的复现性与FP32几乎一致——DeepSeek-R1-Distill-Qwen-7B在MATH500任务中的发散率降至3.4%以下，同时内存占用比FP32节省34%，与纯BF16推理相当（Yuan et al., 2025）。目前该方案已作为vLLM非官方补丁发布，仅需少量代码修改即可集成。

结语

基于研究结论，团队给出三点切实建议：

关键任务优先选择高稳定性方案。医疗、金融、高精度推理等场景，建议直接使用FP32精度或LayerCast方案，避免因不可复现性导致决策风险。
优化模型评估流程。贪心解码时优先采用FP32精度，避免单轮运行得出误导性结论；随机采样时，BF16精度需增加运行次数（如AIME’24任务从16轮增至64轮），并同时报告均值、标准差及误差棒。
规范评估报告内容。报告中需明确标注推理精度、GPU类型与数量、批量大小等配置，便于他人复现结果，推动LLM研究的严谨性（Yuan et al., 2025）。

参考文献

Yuan, J., Li, H., Ding, X., Xie, W., Li, Y.-J., Zhao, W., Wan, K., Shi, J., Hu, X., & Liu, Z. (2025). Understanding and mitigating numerical sources of nondeterminism in LLM inference. 39th Conference on Neural Information Processing Systems (NeurIPS 2025). https://arxiv.org/pdf/2506.09501v2