在大模型研发中,“参数越大性能越好” 的缩放定律是从业者的重要参考,但传统交叉熵(\(\mathrm{Cross\text{-}Entropy}\))缩放定律在 70B 等大参数模型上的失效,让这一指导原则陷入困境。清华大学 Yan 等人 2025 年的预印本研究(\(\mathrm{arXiv:2510.04067}\))以\(\mathrm{Rank\text{-}based Error}\)(\(\mathrm{RBE}\))为核心工具,将交叉熵拆解为三个关键组件,不仅揭开了缩放定律失效的本质,更为大模型优化带来了全新视角。其提出的三个组件可抽象为通用的 “决策质量三要素”,为各类选择提供了实用的分析框架。例如,在选品时的预算分配、招聘时的候选人评估等场景中,都能通过 Error-Entropy(决策结果目标达成度)、Self-Alignment(资源匹配度)、Confidence(选择确定性)这三个维度,系统复盘决策质量,让学术概念真正落地到实践当中。
一、从 “失效的定律” 说起:什么是幂律缩放?
在 AI 领域,缩放定律描述了模型性能随规模增长的规律性变化,其核心是幂律关系:\(y = kx^\alpha\)(Yan et al., 2025)。其中\(x\)代表模型参数或数据集规模,\(y\)对应交叉熵损失等性能指标,\(k\)为比例常数,\(\alpha\)为负向缩放指数 —— 意味着\(x\)增大时\(y\)按固定比例下降,这正是 “参数越多损失越低” 的数学表达。
验证幂律缩放的标准方法是双对数变换:对\(x\)和\(y\)同时取对数后,公式转化为\(\log y = \log k + \alpha \log x\),在\(\log\text{-}\log\)图中呈现为一条直线(Yan et al., 2025)。直线的拟合度\(R^2\)越接近 1,说明缩放规律越显著。
但 Yan 等人发现,这一规律仅在小模型(如百万至十亿参数级)中成立,当模型规模达到 70B 参数时,交叉熵损失的下降速度明显偏离预期(Yan et al., 2025)。核心症结在于:传统交叉熵是一个 “混合指标”,其中真正遵循幂律的部分被其他成分掩盖,而我们此前从未清晰界定过这些成分。
二、关键工具:\(\mathrm{RBE}\)如何量化模型的 “排名错误”?
为拆解交叉熵,Yan 等人提出了\(\mathrm{Rank\text{-}based Error}\)(\(\mathrm{RBE}\))这一核心概念,用于精准衡量模型对真实 token 的排名表现(Yan et al., 2025)。其定义式为:
\(\mathrm{RBE}(v^*) = \sum_{v \in \mathcal{V} \setminus \{v^*\}} \mathbb{1}\{s_v > s_{v^*}\}\)
其中\(v^*\)是真实 token,\(\mathcal{V}\)是词汇表,\(s_v\)是模型给 token \(v\)的预测分数,\(\mathbb{1}\{\cdot\}\)是指示函数(满足条件时取 1,否则取 0)。简单来说,\(\mathrm{RBE}\)就是 “比真实 token 分数更高的其他 token 数量”——\(\mathrm{RBE}\)越小,说明真实 token 排名越靠前,模型判断越准确。
举个极简例子:若词汇表仅有 A、B、C、D、E 五个 token,真实 token 是 B,模型给出的分数排序为 C(0.9)> B(0.7)> A(0.5)> D(0.3)> E(0.1),那么比 B 分数高的 token 只有 1 个(C),该样本的\(\mathrm{RBE}=1\)(Yan et al., 2025)。
基于\(\mathrm{RBE}\),我们可对所有样本分组:设\(\mathrm{RBE}=e\)的样本数为\(n_e\),总样本数\(N = \sum_e n_e\),则\(\mathrm{RBE}\)分布\(p_e = \frac{n_e}{N}\)(满足\(\sum_e p_e = 1\)的归一性)。值得注意的是,每个样本有且仅有一个\(\mathrm{RBE}\)值,就像苹果按颜色分组不会重复或遗漏,所有组样本数之和必然等于\(N\)(Yan et al., 2025)。
三、核心突破:交叉熵的三重分解公式
通过\(\mathrm{RBE}\)分布,Yan 等人成功将交叉熵损失拆解为三个物理意义明确的组件(Yan et al., 2025):
\(-\sum_i \log s_{v^*}^{(i)} = \underbrace{-\sum_e p_e \log p_e}_{\mathrm{Error\text{-}Entropy}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}_{\mathrm{Self\text{-}Alignment}} - \underbrace{\log C}_{\mathrm{Confidence}}\)
这三个组件分别对应模型性能的不同维度,且只有其中之一遵循幂律缩放:
1. \(\mathrm{Error\text{-}Entropy}\)(误差熵):决策结果的 “集中性”
作为\(\mathrm{RBE}\)分布的香农熵,\(\mathrm{Error\text{-}Entropy}\)衡量的是真实 token 排名的集中程度(Yan et al., 2025)。它不仅关注模型 “是否能选对目标”,更强调 “好结果是否集中”—— 比如模型在 80% 的样本中都能将真实 token 排进前 5,而非 “有时排第 1、有时排第 100”。值越小,说明模型 “辨对错” 的能力越强且越稳定。
2. \(\mathrm{Self\text{-}Alignment}\)(自对齐):资源分配的 “自洽性”
这一组件本质是\(\mathrm{RBE}\)分布\(p_e\)与归一化分数分布\(q_e\)的\(\mathrm{KL}\)散度(Yan et al., 2025),其中\(q_e = \frac{Q_e}{C}\),\(Q_e\)是\(\mathrm{RBE}=e\)组分数的几何均值,\(C = \sum_e Q_e\)为置信度总量。它衡量的是模型的 “分数资源” 是否匹配自身的错误模式:错误少的样本(\(\mathrm{RBE}\)小)是否给了高分?错误多的样本(\(\mathrm{RBE}\)大)是否给了低分?散度越小,说明模型内部逻辑越自洽,资源没有浪费在低价值结果上。
3. \(\mathrm{Confidence}\)(置信度):选择的 “确定性”
作为置信度总量\(C\)的负对数,\(C\)越大意味着模型对高排名 token 的置信度越高,该项损失越小(Yan et al., 2025)。它对应的是决策者 “对选择的底气”:比如模型给真实 token 的分数是 0.9,而其他 token 最高仅 0.2,这种 “分数断层” 就体现了高确定性;反之,0.5 与 0.45 的微小差距则说明模型摇摆不定。
四、实验验证:谁才是缩放的 “真正主角”?
为验证三个组件的缩放特性,Yan 等人在\(\mathrm{Wikipedia}\)、\(\mathrm{C4}\)、\(\mathrm{GitHub}\)三个数据集上,对 32 个跨 5 数量级(14M~70B 参数)的模型(覆盖\(\mathrm{GPT\text{-}2}\)、\(\mathrm{Pythia}\)、\(\mathrm{LLaMA}\)等家族)进行了测试(Yan et al., 2025),得出两个关键结论:
仅 严格遵循幂律缩放:其双对数图的拟合度\(R^2\)接近 0.9,显著高于交叉熵整体的拟合度,且缩放指数\(\alpha\)稳定为负值;而\(\mathrm{Self\text{-}Alignment}\)和\(\mathrm{Confidence}\)均不具备幂律特征。
组件占比变化导致定律失效:小模型中\(\mathrm{Error\text{-}Entropy}\)占交叉熵的 80%~90%,主导了整体的缩放行为;但大模型中其占比下降至 50% 以下,非缩放组件成为损失的主要构成,最终让传统交叉熵缩放定律 “失灵”(Yan et al., 2025)。
五、不止于学术:从模型性能到决策思维的启示
Yan 等人的研究不仅解决了缩放定律的理论谜题,更提供了可落地的实践价值(Yan et al., 2025):它解释了传统定律失效的本质,证明\(\mathrm{Error\text{-}Entropy}\)可作为更精准的大模型缩放指标,甚至替代交叉熵成为训练目标;同时修正了认知 —— 模型概率分布并非对齐真实语言分布,而是对齐自身的错误规律。
更有趣的是,这三个组件可抽象为通用的 “决策质量三要素”,适用于各类选择场景(基于 Yan et al., 2025 的延伸解读):
→决策结果:目标达成度高且好结果集中吗?
→资源匹配:自身资源是否优先流向高价值结果?
→选择确定性:对决策有底气且愿意用行动背书吗?
这一视角让晦涩的学术概念变得实用:无论是选品时的预算分配、招聘时的候选人评估,还是个人职业规划,都可通过这三个维度复盘决策质量。
六、总结
Yan 等人(2025)的研究以\(\mathrm{RBE}\)为钥匙,打开了交叉熵,首次明确了\(\mathrm{Error\text{-}Entropy}\)才是大模型缩放的核心驱动因素。这不仅为大模型的性能预测与优化提供了理论依据,更将模型评估的逻辑延伸为一种普适的决策思维。对于大模型从业者而言,放弃对 “交叉熵整体” 的执着,聚焦\(\mathrm{Error\text{-}Entropy}\)等核心组件,或许能在大模型研发中找到更高效的突破路径。
参考文献
Yan, J., Wei, Z., Zhan, J., Ai, Q., & Liu, Y. (2025). What scales in cross-entropy scaling law? arXiv preprint arXiv:2510.04067. https://arxiv.org/abs/2510.04067