LLM：拆解大模型缩放定律失效的三重分解

在大模型研发中，“参数越大性能越好” 的缩放定律是从业者的重要参考，但传统交叉熵（$\mathrm{Cross\text{-}Entropy}$）缩放定律在 70B 等大参数模型上的失效，让这一指导原则陷入困境。清华大学 Yan 等人 2025 年的预印本研究（$\mathrm{arXiv:2510.04067}$）以$\mathrm{Rank\text{-}based Error}$（$\mathrm{RBE}$）为核心工具，将交叉熵拆解为三个关键组件，不仅揭开了缩放定律失效的本质，更为大模型优化带来了全新视角。其提出的三个组件可抽象为通用的 “决策质量三要素”，为各类选择提供了实用的分析框架。例如，在选品时的预算分配、招聘时的候选人评估等场景中，都能通过 Error-Entropy（决策结果目标达成度）、Self-Alignment（资源匹配度）、Confidence（选择确定性）这三个维度，系统复盘决策质量，让学术概念真正落地到实践当中。

一、从 “失效的定律” 说起：什么是幂律缩放？

在 AI 领域，缩放定律描述了模型性能随规模增长的规律性变化，其核心是幂律关系：$y = kx^\alpha$（Yan et al., 2025）。其中$x$代表模型参数或数据集规模，$y$对应交叉熵损失等性能指标，$k$为比例常数，$\alpha$为负向缩放指数 —— 意味着$x$增大时$y$按固定比例下降，这正是 “参数越多损失越低” 的数学：表达。

验证幂律缩放的标准方法是双对数变换：对$x$和$y$同时取对数后，公式转化为$\log y = \log k + \alpha \log x$，在$\log\text{-}\log$图中呈现为一条直线（Yan et al., 2025）。直线的拟合度$R^2$越接近 1，说明缩放规律越显著。

但 Yan 等人发现，这一规律仅在小模型（如百万至十亿参数级）中成立，当模型规模达到 70B 参数时，交叉熵损失的下降速度明显偏离预期（Yan et al., 2025）。核心症结在于：传统交叉熵是一个 “混合指标”，其中真正遵循幂律的部分被其他成分掩盖，而我们此前从未清晰界定过这些成分。

二、关键工具：$\mathrm{RBE}$如何量化模型的 “排名错误”？

为拆解交叉熵，Yan 等人提出了$\mathrm{Rank\text{-}based Error}$（$\mathrm{RBE}$）这一核心概念，用于精准衡量模型对真实 token 的排名表现（Yan et al., 2025）。其定义式为：

$\mathrm{RBE}(v^) = \sum_{v \in \mathcal{V} \setminus {v^}} \mathbb{1}{s_v > s_{v^*}}$

其中$v^*$是真实 token，$\mathcal{V}$是词汇表，$s_v$是模型给 token $v$的预测分数，$\mathbb{1}{\cdot}$是指示函数（满足条件时取 1，否则取 0）。简单来说，$\mathrm{RBE}$就是 “比真实 token 分数更高的其他 token 数量”——$\mathrm{RBE}$越小，说明真实 token 排名越靠前，模型判断越准确。

举个极简例子：若词汇表仅有 A、B、C、D、E 五个 token，真实 token 是 B，模型给出的分数排序为 C（0.9）> B（0.7）> A（0.5）> D（0.3）> E（0.1），那么比 B 分数高的 token 只有 1 个（C），该样本的$\mathrm{RBE}=1$（Yan et al., 2025）。

基于$\mathrm{RBE}$，我们可对所有样本分组：设$\mathrm{RBE}=e$的样本数为$n_e$，总样本数$N = \sum_e n_e$，则$\mathrm{RBE}$分布$p_e = \frac{n_e}{N}$（满足$\sum_e p_e = 1$的归一性）。值得注意的是，每个样本有且仅有一个$\mathrm{RBE}$值，就像苹果按颜色分组不会重复或遗漏，所有组样本数之和必然等于$N$（Yan et al., 2025）。

三、核心突破：交叉熵的三重分解公式

通过$\mathrm{RBE}$分布，Yan 等人成功将交叉熵损失拆解为三个物理意义明确的组件（Yan et al., 2025）：

$-\sum_i \log s_{v^*}^{(i)} = \underbrace{-\sum_e p_e \log p_e}{\mathrm{Error\text{-}Entropy}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}{\mathrm{Self\text{-}Alignment}} - \underbrace{\log C}_{\mathrm{Confidence}}$

这三个组件分别对应模型性能的不同维度，且只有其中之一遵循幂律缩放：

1. $\mathrm{Error\text{-}Entropy}$（误差熵）：决策结果的 “集中性”

作为$\mathrm{RBE}$分布的香农熵，$\mathrm{Error\text{-}Entropy}$衡量的是真实 token 排名的集中程度（Yan et al., 2025）。它不仅关注模型 “是否能选对目标”，更强调 “好结果是否集中”—— 比如模型在 80% 的样本中都能将真实 token 排进前 5，而非 “有时排第 1、有时排第 100”。值越小，说明模型 “辨对错” 的能力越强且越稳定。

2. $\mathrm{Self\text{-}Alignment}$（自对齐）：资源分配的 “自洽性”

这一组件本质是$\mathrm{RBE}$分布$p_e$与归一化分数分布$q_e$的$\mathrm{KL}$散度（Yan et al., 2025），其中$q_e = \frac{Q_e}{C}$，$Q_e$是$\mathrm{RBE}=e$组分数的几何均值，$C = \sum_e Q_e$为置信度总量。它衡量的是模型的 “分数资源” 是否匹配自身的错误模式：错误少的样本（$\mathrm{RBE}$小）是否给了高分？错误多的样本（$\mathrm{RBE}$大）是否给了低分？散度越小，说明模型内部逻辑越自洽，资源没有浪费在低价值结果上。

3. $\mathrm{Confidence}$（置信度）：选择的 “确定性”

作为置信度总量$C$的负对数，$C$越大意味着模型对高排名 token 的置信度越高，该项损失越小（Yan et al., 2025）。它对应的是决策者 “对选择的底气”：比如模型给真实 token 的分数是 0.9，而其他 token 最高仅 0.2，这种 “分数断层” 就体现了高确定性；反之，0.5 与 0.45 的微小差距则说明模型摇摆不定。

四、实验验证：谁才是缩放的 “真正主角”？

为验证三个组件的缩放特性，Yan 等人在$\mathrm{Wikipedia}$、$\mathrm{C4}$、$\mathrm{GitHub}$三个数据集上，对 32 个跨 5 数量级（14M~70B 参数）的模型（覆盖$\mathrm{GPT\text{-}2}$、$\mathrm{Pythia}$、$\mathrm{LLaMA}$等家族）进行了测试（Yan et al., 2025），得出两个关键结论：

仅严格遵循幂律缩放：其双对数图的拟合度$R^2$接近 0.9，显著高于交叉熵整体的拟合度，且缩放指数$\alpha$稳定为负值；而$\mathrm{Self\text{-}Alignment}$和$\mathrm{Confidence}$均不具备幂律特征。
组件占比变化导致定律失效：小模型中$\mathrm{Error\text{-}Entropy}$占交叉熵的 80%~90%，主导了整体的缩放行为；但大模型中其占比下降至 50% 以下，非缩放组件成为损失的主要构成，最终让传统交叉熵缩放定律 “失灵”（Yan et al., 2025）。

五、不止于学术：从模型性能到决策思维的启示

Yan 等人的研究不仅解决了缩放定律的理论谜题，更提供了可落地的实践价值（Yan et al., 2025）：它解释了传统定律失效的本质，证明$\mathrm{Error\text{-}Entropy}$可作为更精准的大模型缩放指标，甚至替代交叉熵成为训练目标；同时修正了认知 —— 模型概率分布并非对齐真实语言分布，而是对齐自身的错误规律。

更有趣的是，这三个组件可抽象为通用的 “决策质量三要素”，适用于各类选择场景（基于 Yan et al., 2025 的延伸解读）：

** →决策结果**：目标达成度高且好结果集中吗？
** →资源匹配**：自身资源是否优先流向高价值结果？
** →选择确定性**：对决策有底气且愿意用行动背书吗？

这一视角让晦涩的学术概念变得实用：无论是选品时的预算分配、招聘时的候选人评估，还是个人职业规划，都可通过这三个维度复盘决策质量。

六、总结

Yan 等人（2025）的研究以$\mathrm{RBE}$为钥匙，打开了交叉熵，首次明确了$\mathrm{Error\text{-}Entropy}$才是大模型缩放的核心驱动因素。这不仅为大模型的性能预测与优化提供了理论依据，更将模型评估的逻辑延伸为一种普适的决策思维。对于大模型从业者而言，放弃对 “交叉熵整体” 的执着，聚焦$\mathrm{Error\text{-}Entropy}$等核心组件，或许能在大模型研发中找到更高效的突破路径。

参考文献

Yan, J., Wei, Z., Zhan, J., Ai, Q., & Liu, Y. (2025). What scales in cross-entropy scaling law? arXiv preprint arXiv:2510.04067. https://arxiv.org/abs/2510.04067