2 min read

LLM：拆解大模型缩放定律失效的三重分解

2025/10/05

在大模型研发中，“参数越大性能越好” 的缩放定律是从业者的重要参考，但传统交叉熵（\(\mathrm{Cross\text{-}Entropy}\)）缩放定律在 70B 等大参数模型上的失效，让这一指导原则陷入困境。清华大学 Yan 等人 2025 年的预印本研究（\(\mathrm{arXiv:2510.04067}\)）以\(\mathrm{Rank\text{-}based Error}\)（\(\mathrm{RBE}\)）为核心工具，将交叉熵拆解为三个关键组件，不仅揭开了缩放定律失效的本质，更为大模型优化带来了全新视角。其提出的三个组件可抽象为通用的 “决策质量三要素”，为各类选择提供了实用的分析框架。例如，在选品时的预算分配、招聘时的候选人评估等场景中，都能通过 Error-Entropy（决策结果目标达成度）、Self-Alignment（资源匹配度）、Confidence（选择确定性）这三个维度，系统复盘决策质量，让学术概念真正落地到实践当中。

一、从 “失效的定律” 说起：什么是幂律缩放？

在 AI 领域，缩放定律描述了模型性能随规模增长的规律性变化，其核心是幂律关系：\(y = kx^\alpha\)（Yan et al., 2025）。其中\(x\)代表模型参数或数据集规模，\(y\)对应交叉熵损失等性能指标，\(k\)为比例常数，\(\alpha\)为负向缩放指数 —— 意味着\(x\)增大时\(y\)按固定比例下降，这正是 “参数越多损失越低” 的数学表达。

验证幂律缩放的标准方法是双对数变换：对\(x\)和\(y\)同时取对数后，公式转化为\(\log y = \log k + \alpha \log x\)，在\(\log\text{-}\log\)图中呈现为一条直线（Yan et al., 2025）。直线的拟合度\(R^2\)越接近 1，说明缩放规律越显著。

但 Yan 等人发现，这一规律仅在小模型（如百万至十亿参数级）中成立，当模型规模达到 70B 参数时，交叉熵损失的下降速度明显偏离预期（Yan et al., 2025）。核心症结在于：传统交叉熵是一个 “混合指标”，其中真正遵循幂律的部分被其他成分掩盖，而我们此前从未清晰界定过这些成分。

二、关键工具：\(\mathrm{RBE}\)如何量化模型的 “排名错误”？

为拆解交叉熵，Yan 等人提出了\(\mathrm{Rank\text{-}based Error}\)（\(\mathrm{RBE}\)）这一核心概念，用于精准衡量模型对真实 token 的排名表现（Yan et al., 2025）。其定义式为：

\(\mathrm{RBE}(v^*) = \sum_{v \in \mathcal{V} \setminus \{v^*\}} \mathbb{1}\{s_v > s_{v^*}\}\)

其中\(v^*\)是真实 token，\(\mathcal{V}\)是词汇表，\(s_v\)是模型给 token \(v\)的预测分数，\(\mathbb{1}\{\cdot\}\)是指示函数（满足条件时取 1，否则取 0）。简单来说，\(\mathrm{RBE}\)就是 “比真实 token 分数更高的其他 token 数量”——\(\mathrm{RBE}\)越小，说明真实 token 排名越靠前，模型判断越准确。

举个极简例子：若词汇表仅有 A、B、C、D、E 五个 token，真实 token 是 B，模型给出的分数排序为 C（0.9）> B（0.7）> A（0.5）> D（0.3）> E（0.1），那么比 B 分数高的 token 只有 1 个（C），该样本的\(\mathrm{RBE}=1\)（Yan et al., 2025）。

基于\(\mathrm{RBE}\)，我们可对所有样本分组：设\(\mathrm{RBE}=e\)的样本数为\(n_e\)，总样本数\(N = \sum_e n_e\)，则\(\mathrm{RBE}\)分布\(p_e = \frac{n_e}{N}\)（满足\(\sum_e p_e = 1\)的归一性）。值得注意的是，每个样本有且仅有一个\(\mathrm{RBE}\)值，就像苹果按颜色分组不会重复或遗漏，所有组样本数之和必然等于\(N\)（Yan et al., 2025）。

三、核心突破：交叉熵的三重分解公式

通过\(\mathrm{RBE}\)分布，Yan 等人成功将交叉熵损失拆解为三个物理意义明确的组件（Yan et al., 2025）：

\(-\sum_i \log s_{v^*}^{(i)} = \underbrace{-\sum_e p_e \log p_e}_{\mathrm{Error\text{-}Entropy}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}_{\mathrm{Self\text{-}Alignment}} - \underbrace{\log C}_{\mathrm{Confidence}}\)

这三个组件分别对应模型性能的不同维度，且只有其中之一遵循幂律缩放：

1. \(\mathrm{Error\text{-}Entropy}\)（误差熵）：决策结果的 “集中性”

作为\(\mathrm{RBE}\)分布的香农熵，\(\mathrm{Error\text{-}Entropy}\)衡量的是真实 token 排名的集中程度（Yan et al., 2025）。它不仅关注模型 “是否能选对目标”，更强调 “好结果是否集中”—— 比如模型在 80% 的样本中都能将真实 token 排进前 5，而非 “有时排第 1、有时排第 100”。值越小，说明模型 “辨对错” 的能力越强且越稳定。

2. \(\mathrm{Self\text{-}Alignment}\)（自对齐）：资源分配的 “自洽性”

这一组件本质是\(\mathrm{RBE}\)分布\(p_e\)与归一化分数分布\(q_e\)的\(\mathrm{KL}\)散度（Yan et al., 2025），其中\(q_e = \frac{Q_e}{C}\)，\(Q_e\)是\(\mathrm{RBE}=e\)组分数的几何均值，\(C = \sum_e Q_e\)为置信度总量。它衡量的是模型的 “分数资源” 是否匹配自身的错误模式：错误少的样本（\(\mathrm{RBE}\)小）是否给了高分？错误多的样本（\(\mathrm{RBE}\)大）是否给了低分？散度越小，说明模型内部逻辑越自洽，资源没有浪费在低价值结果上。

3. \(\mathrm{Confidence}\)（置信度）：选择的 “确定性”

作为置信度总量\(C\)的负对数，\(C\)越大意味着模型对高排名 token 的置信度越高，该项损失越小（Yan et al., 2025）。它对应的是决策者 “对选择的底气”：比如模型给真实 token 的分数是 0.9，而其他 token 最高仅 0.2，这种 “分数断层” 就体现了高确定性；反之，0.5 与 0.45 的微小差距则说明模型摇摆不定。

四、实验验证：谁才是缩放的 “真正主角”？

为验证三个组件的缩放特性，Yan 等人在\(\mathrm{Wikipedia}\)、\(\mathrm{C4}\)、\(\mathrm{GitHub}\)三个数据集上，对 32 个跨 5 数量级（14M~70B 参数）的模型（覆盖\(\mathrm{GPT\text{-}2}\)、\(\mathrm{Pythia}\)、\(\mathrm{LLaMA}\)等家族）进行了测试（Yan et al., 2025），得出两个关键结论：

仅严格遵循幂律缩放：其双对数图的拟合度\(R^2\)接近 0.9，显著高于交叉熵整体的拟合度，且缩放指数\(\alpha\)稳定为负值；而\(\mathrm{Self\text{-}Alignment}\)和\(\mathrm{Confidence}\)均不具备幂律特征。
组件占比变化导致定律失效：小模型中\(\mathrm{Error\text{-}Entropy}\)占交叉熵的 80%~90%，主导了整体的缩放行为；但大模型中其占比下降至 50% 以下，非缩放组件成为损失的主要构成，最终让传统交叉熵缩放定律 “失灵”（Yan et al., 2025）。

五、不止于学术：从模型性能到决策思维的启示

Yan 等人的研究不仅解决了缩放定律的理论谜题，更提供了可落地的实践价值（Yan et al., 2025）：它解释了传统定律失效的本质，证明\(\mathrm{Error\text{-}Entropy}\)可作为更精准的大模型缩放指标，甚至替代交叉熵成为训练目标；同时修正了认知 —— 模型概率分布并非对齐真实语言分布，而是对齐自身的错误规律。

更有趣的是，这三个组件可抽象为通用的 “决策质量三要素”，适用于各类选择场景（基于 Yan et al., 2025 的延伸解读）：

→决策结果：目标达成度高且好结果集中吗？
→资源匹配：自身资源是否优先流向高价值结果？
→选择确定性：对决策有底气且愿意用行动背书吗？

这一视角让晦涩的学术概念变得实用：无论是选品时的预算分配、招聘时的候选人评估，还是个人职业规划，都可通过这三个维度复盘决策质量。

六、总结

Yan 等人（2025）的研究以\(\mathrm{RBE}\)为钥匙，打开了交叉熵，首次明确了\(\mathrm{Error\text{-}Entropy}\)才是大模型缩放的核心驱动因素。这不仅为大模型的性能预测与优化提供了理论依据，更将模型评估的逻辑延伸为一种普适的决策思维。对于大模型从业者而言，放弃对 “交叉熵整体” 的执着，聚焦\(\mathrm{Error\text{-}Entropy}\)等核心组件，或许能在大模型研发中找到更高效的突破路径。

参考文献

Yan, J., Wei, Z., Zhan, J., Ai, Q., & Liu, Y. (2025). What scales in cross-entropy scaling law? arXiv preprint arXiv:2510.04067. https://arxiv.org/abs/2510.04067