LLM已深度融入聊天机器人、医疗辅助、代码生成等领域,基准评分的准确性与可复现性是技术迭代的核心前提。然而,在NeurIPS 2025 oral一篇论文中指出,LLM推理存在隐蔽的不可复现问题,即便固定贪心解码(温度=0)与随机种子,系统配置的微小变化就可能导致结果大幅偏差(Yuan et al., 2025)。这一发现为LLM的可靠应用敲响警钟,也提供了切实的解决方案。
一、不可复现的核心表现:超出预期的结果波动
研究团队通过12种 runtime配置(2种GPU类型×2种GPU数量×3种批量大小),对4个主流LLM(含2个推理模型、2个非推理模型)及扩展模型Qwen3-32B展开测试,发现不可复现性主要体现在两方面:
其一,准确率波动显著。在BF16精度下,推理模型DeepSeek-R1-Distill-Qwen-7B在AIME’24任务中,因GPU类型、数量或批量大小不同,准确率波动最高达9.15%,而FP32精度下波动接近0(Yuan et al., 2025)。非推理模型虽波动较小,但BF16精度下仍存在明显差异。
其二,输出长度差异巨大。推理模型的生成文本长度标准差尤为突出,DeepSeek-R1-Distill-Llama-8B在AIME’24任务中,BF16精度下输出长度标准差达9348.59,意味着不同配置下可能出现9000+ token的长度差,严重影响依赖输出长度的评估场景(Yuan et al., 2025)。
更值得关注的是,这一问题并非特定推理框架独有,无论是vLLM还是HuggingFace Transformers,都存在类似现象,且在数学推理、代码生成等高精度任务中表现更明显(Yuan et al., 2025)。
二、根源解析:浮点运算特性与LLM机制的叠加效应
不可复现的核心根源,是浮点运算的非结合性与LLM自身特性的相互作用:
浮点运算的非结合性,指有限精度下加法顺序改变会导致结果不同((a+b)+c≠a+(b+c))。这里的核心是浮点数的精度差异,而精度由尾数(也称小数部分)决定,尾数是浮点数中记录有效数字细节的二进制位段,位数越多,能表示的数值越精细,舍入误差就越小。不同精度格式的尾数位数不同:BF16仅7位尾数,虽有1位隐含整数位(IEEE 754标准的优化设计,不占用尾数存储空间),实际有效精度约7.8位,舍入误差最大;FP16有10位尾数,搭配隐含整数位后有效精度约10.8位,误差居中;FP32则有23位尾数,加上隐含整数位,精度足够高,误差几乎可忽略(Yuan et al., 2025)。GPU并行计算、批量大小变化等会改变运算顺序,让这些微小误差被进一步放大。
而LLM的两大特性让这种误差放大:一是思维链累积效应,推理模型生成的长文本会让早期微小误差持续传递、放大;二是logit间距极小,推理模型Top-1与Top-2 token的概率差距常接近0,低精度的舍入误差极易导致token选择反转(Yuan et al., 2025)。
此外,系统配置也会加剧不稳定性:4 GPU比2 GPU的波动更明显,小批量(BS=8)比大批量(BS=32)误差累积更多,A100 GPU的硬件诱导变异性略高于L40S(Yuan et al., 2025)。
三、实验验证:精度与配置的关键影响
为验证结论的通用性,研究团队进行了多维度实验:
在模型规模上,32B的Qwen3-32B在AIME’24任务中,BF16精度下准确率标准差达5.02%,而FP32仅1.11%,说明大模型同样受此问题困扰(Yuan et al., 2025)。
在任务类型上,针对研究生级科学问题的GPQA Diamond基准测试中,DeepSeek-R1-Distill-Llama-8B的BF16精度准确率标准差为3.03%,高于FP32的1.96%,证明不可复现性并非局限于数学或代码任务(Yuan et al., 2025)。
在随机采样场景中,BF16精度仍存在额外方差,需更多运行次数才能获得稳定结果,例如AIME’24任务中,BF16精度需64轮运行才能接近FP32的稳定性,这无疑增加了计算成本(Yuan et al., 2025)。
四、解决方案:LayerCast混合精度推理
针对FP32精度内存占用过高(是BF16的2倍)的问题,研究团队提出LayerCast混合精度推理方案,实现稳定性与内存效率的平衡:
其核心逻辑是存储低精度、计算高精度:模型权重以BF16格式存储,降低内存占用;推理时逐层将权重即时转换为FP32,所有核心运算(矩阵乘法、注意力计算等)均在FP32精度下执行,从根源避免低精度误差(Yuan et al., 2025)。
实验结果显示,LayerCast的复现性与FP32几乎一致——DeepSeek-R1-Distill-Qwen-7B在MATH500任务中的发散率降至3.4%以下,同时内存占用比FP32节省34%,与纯BF16推理相当(Yuan et al., 2025)。目前该方案已作为vLLM非官方补丁发布,仅需少量代码修改即可集成。
结语
基于研究结论,团队给出三点切实建议:
关键任务优先选择高稳定性方案。医疗、金融、高精度推理等场景,建议直接使用FP32精度或LayerCast方案,避免因不可复现性导致决策风险。
优化模型评估流程。贪心解码时优先采用FP32精度,避免单轮运行得出误导性结论;随机采样时,BF16精度需增加运行次数(如AIME’24任务从16轮增至64轮),并同时报告均值、标准差及误差棒。
规范评估报告内容。报告中需明确标注推理精度、GPU类型与数量、批量大小等配置,便于他人复现结果,推动LLM研究的严谨性(Yuan et al., 2025)。
参考文献
Yuan, J., Li, H., Ding, X., Xie, W., Li, Y.-J., Zhao, W., Wan, K., Shi, J., Hu, X., & Liu, Z. (2025). Understanding and mitigating numerical sources of nondeterminism in LLM inference. 39th Conference on Neural Information Processing Systems (NeurIPS 2025). https://arxiv.org/pdf/2506.09501v2