2 min read

LLM:拆解大模型缩放定律失效的三重分解

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在大模型研发中,“参数越大性能越好” 的缩放定律是从业者的重要参考,但传统交叉熵(\(\mathrm{Cross\text{-}Entropy}\))缩放定律在 70B 等大参数模型上的失效,让这一指导原则陷入困境。清华大学 Yan 等人 2025 年的预印本研究(\(\mathrm{arXiv:2510.04067}\))以\(\mathrm{Rank\text{-}based Error}\)\(\mathrm{RBE}\))为核心工具,将交叉熵拆解为三个关键组件,不仅揭开了缩放定律失效的本质,更为大模型优化带来了全新视角。其提出的三个组件可抽象为通用的 “决策质量三要素”,为各类选择提供了实用的分析框架。例如,在选品时的预算分配、招聘时的候选人评估等场景中,都能通过 Error-Entropy(决策结果目标达成度)、Self-Alignment(资源匹配度)、Confidence(选择确定性)这三个维度,系统复盘决策质量,让学术概念真正落地到实践当中。

一、从 “失效的定律” 说起:什么是幂律缩放?

在 AI 领域,缩放定律描述了模型性能随规模增长的规律性变化,其核心是幂律关系\(y = kx^\alpha\)(Yan et al., 2025)。其中\(x\)代表模型参数或数据集规模,\(y\)对应交叉熵损失等性能指标,\(k\)为比例常数,\(\alpha\)为负向缩放指数 —— 意味着\(x\)增大时\(y\)按固定比例下降,这正是 “参数越多损失越低” 的数学表达。

验证幂律缩放的标准方法是双对数变换:对\(x\)\(y\)同时取对数后,公式转化为\(\log y = \log k + \alpha \log x\),在\(\log\text{-}\log\)图中呈现为一条直线(Yan et al., 2025)。直线的拟合度\(R^2\)越接近 1,说明缩放规律越显著。

但 Yan 等人发现,这一规律仅在小模型(如百万至十亿参数级)中成立,当模型规模达到 70B 参数时,交叉熵损失的下降速度明显偏离预期(Yan et al., 2025)。核心症结在于:传统交叉熵是一个 “混合指标”,其中真正遵循幂律的部分被其他成分掩盖,而我们此前从未清晰界定过这些成分。

二、关键工具:\(\mathrm{RBE}\)如何量化模型的 “排名错误”?

为拆解交叉熵,Yan 等人提出了\(\mathrm{Rank\text{-}based Error}\)\(\mathrm{RBE}\))这一核心概念,用于精准衡量模型对真实 token 的排名表现(Yan et al., 2025)。其定义式为:

\(\mathrm{RBE}(v^*) = \sum_{v \in \mathcal{V} \setminus \{v^*\}} \mathbb{1}\{s_v > s_{v^*}\}\)

其中\(v^*\)是真实 token,\(\mathcal{V}\)是词汇表,\(s_v\)是模型给 token \(v\)的预测分数,\(\mathbb{1}\{\cdot\}\)是指示函数(满足条件时取 1,否则取 0)。简单来说,\(\mathrm{RBE}\)就是 “比真实 token 分数更高的其他 token 数量”——\(\mathrm{RBE}\)越小,说明真实 token 排名越靠前,模型判断越准确。

举个极简例子:若词汇表仅有 A、B、C、D、E 五个 token,真实 token 是 B,模型给出的分数排序为 C(0.9)> B(0.7)> A(0.5)> D(0.3)> E(0.1),那么比 B 分数高的 token 只有 1 个(C),该样本的\(\mathrm{RBE}=1\)(Yan et al., 2025)。

基于\(\mathrm{RBE}\),我们可对所有样本分组:设\(\mathrm{RBE}=e\)的样本数为\(n_e\),总样本数\(N = \sum_e n_e\),则\(\mathrm{RBE}\)分布\(p_e = \frac{n_e}{N}\)(满足\(\sum_e p_e = 1\)的归一性)。值得注意的是,每个样本有且仅有一个\(\mathrm{RBE}\)值,就像苹果按颜色分组不会重复或遗漏,所有组样本数之和必然等于\(N\)(Yan et al., 2025)。

三、核心突破:交叉熵的三重分解公式

通过\(\mathrm{RBE}\)分布,Yan 等人成功将交叉熵损失拆解为三个物理意义明确的组件(Yan et al., 2025):

\(-\sum_i \log s_{v^*}^{(i)} = \underbrace{-\sum_e p_e \log p_e}_{\mathrm{Error\text{-}Entropy}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}_{\mathrm{Self\text{-}Alignment}} - \underbrace{\log C}_{\mathrm{Confidence}}\)

这三个组件分别对应模型性能的不同维度,且只有其中之一遵循幂律缩放:

1. \(\mathrm{Error\text{-}Entropy}\)(误差熵):决策结果的 “集中性”

作为\(\mathrm{RBE}\)分布的香农熵,\(\mathrm{Error\text{-}Entropy}\)衡量的是真实 token 排名的集中程度(Yan et al., 2025)。它不仅关注模型 “是否能选对目标”,更强调 “好结果是否集中”—— 比如模型在 80% 的样本中都能将真实 token 排进前 5,而非 “有时排第 1、有时排第 100”。值越小,说明模型 “辨对错” 的能力越强且越稳定。

2. \(\mathrm{Self\text{-}Alignment}\)(自对齐):资源分配的 “自洽性”

这一组件本质是\(\mathrm{RBE}\)分布\(p_e\)与归一化分数分布\(q_e\)\(\mathrm{KL}\)散度(Yan et al., 2025),其中\(q_e = \frac{Q_e}{C}\)\(Q_e\)\(\mathrm{RBE}=e\)组分数的几何均值,\(C = \sum_e Q_e\)为置信度总量。它衡量的是模型的 “分数资源” 是否匹配自身的错误模式:错误少的样本(\(\mathrm{RBE}\)小)是否给了高分?错误多的样本(\(\mathrm{RBE}\)大)是否给了低分?散度越小,说明模型内部逻辑越自洽,资源没有浪费在低价值结果上。

3. \(\mathrm{Confidence}\)(置信度):选择的 “确定性”

作为置信度总量\(C\)的负对数,\(C\)越大意味着模型对高排名 token 的置信度越高,该项损失越小(Yan et al., 2025)。它对应的是决策者 “对选择的底气”:比如模型给真实 token 的分数是 0.9,而其他 token 最高仅 0.2,这种 “分数断层” 就体现了高确定性;反之,0.5 与 0.45 的微小差距则说明模型摇摆不定。

四、实验验证:谁才是缩放的 “真正主角”?

为验证三个组件的缩放特性,Yan 等人在\(\mathrm{Wikipedia}\)\(\mathrm{C4}\)\(\mathrm{GitHub}\)三个数据集上,对 32 个跨 5 数量级(14M~70B 参数)的模型(覆盖\(\mathrm{GPT\text{-}2}\)\(\mathrm{Pythia}\)\(\mathrm{LLaMA}\)等家族)进行了测试(Yan et al., 2025),得出两个关键结论:

  1. 仅 严格遵循幂律缩放:其双对数图的拟合度\(R^2\)接近 0.9,显著高于交叉熵整体的拟合度,且缩放指数\(\alpha\)稳定为负值;而\(\mathrm{Self\text{-}Alignment}\)\(\mathrm{Confidence}\)均不具备幂律特征。

  2. 组件占比变化导致定律失效:小模型中\(\mathrm{Error\text{-}Entropy}\)占交叉熵的 80%~90%,主导了整体的缩放行为;但大模型中其占比下降至 50% 以下,非缩放组件成为损失的主要构成,最终让传统交叉熵缩放定律 “失灵”(Yan et al., 2025)。

五、不止于学术:从模型性能到决策思维的启示

Yan 等人的研究不仅解决了缩放定律的理论谜题,更提供了可落地的实践价值(Yan et al., 2025):它解释了传统定律失效的本质,证明\(\mathrm{Error\text{-}Entropy}\)可作为更精准的大模型缩放指标,甚至替代交叉熵成为训练目标;同时修正了认知 —— 模型概率分布并非对齐真实语言分布,而是对齐自身的错误规律。

更有趣的是,这三个组件可抽象为通用的 “决策质量三要素”,适用于各类选择场景(基于 Yan et al., 2025 的延伸解读):

  • →决策结果:目标达成度高且好结果集中吗?

  • →资源匹配:自身资源是否优先流向高价值结果?

  • →选择确定性:对决策有底气且愿意用行动背书吗?

这一视角让晦涩的学术概念变得实用:无论是选品时的预算分配、招聘时的候选人评估,还是个人职业规划,都可通过这三个维度复盘决策质量。

六、总结

Yan 等人(2025)的研究以\(\mathrm{RBE}\)为钥匙,打开了交叉熵,首次明确了\(\mathrm{Error\text{-}Entropy}\)才是大模型缩放的核心驱动因素。这不仅为大模型的性能预测与优化提供了理论依据,更将模型评估的逻辑延伸为一种普适的决策思维。对于大模型从业者而言,放弃对 “交叉熵整体” 的执着,聚焦\(\mathrm{Error\text{-}Entropy}\)等核心组件,或许能在大模型研发中找到更高效的突破路径。

参考文献

Yan, J., Wei, Z., Zhan, J., Ai, Q., & Liu, Y. (2025). What scales in cross-entropy scaling law? arXiv preprint arXiv:2510.04067. https://arxiv.org/abs/2510.04067

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03