在大模型研发中,“参数越大性能越好” 的缩放定律是从业者的重要参考,但传统交叉熵(Cross-Entropy)缩放定律在 70B 等大参数模型上的失效,让这一指导原则陷入困境。清华大学 Yan 等人 2025 年的预印本研究(arXiv : 2510.04067)以Rank-basedError(RBE)为核心工具,将交叉熵拆解为三个关键组件,不仅揭开了缩放定律失效的本质,更为大模型优化带来了全新视角。其提出的三个组件可抽象为通用的 “决策质量三要素”,为各类选择提供了实用的分析框架。例如,在选品时的预算分配、招聘时的候选人评估等场景中,都能通过 Error-Entropy(决策结果目标达成度)、Self-Alignment(资源匹配度)、Confidence(选择确定性)这三个维度,系统复盘决策质量,让学术概念真正落地到实践当中。
一、从 “失效的定律” 说起:什么是幂律缩放?
在 AI 领域,缩放定律描述了模型性能随规模增长的规律性变化,其核心是幂律关系:y = kxα(Yan et al., 2025)。其中x代表模型参数或数据集规模,y对应交叉熵损失等性能指标,k为比例常数,α为负向缩放指数 —— 意味着x增大时y按固定比例下降,这正是 “参数越多损失越低” 的数学表达。
验证幂律缩放的标准方法是双对数变换:对x和y同时取对数后,公式转化为log y = log k + αlog x,在log -log 图中呈现为一条直线(Yan et al., 2025)。直线的拟合度R2越接近 1,说明缩放规律越显著。
但 Yan 等人发现,这一规律仅在小模型(如百万至十亿参数级)中成立,当模型规模达到 70B 参数时,交叉熵损失的下降速度明显偏离预期(Yan et al., 2025)。核心症结在于:传统交叉熵是一个 “混合指标”,其中真正遵循幂律的部分被其他成分掩盖,而我们此前从未清晰界定过这些成分。
二、关键工具:RBE如何量化模型的 “排名错误”?
为拆解交叉熵,Yan 等人提出了Rank-basedError(RBE)这一核心概念,用于精准衡量模型对真实 token 的排名表现(Yan et al., 2025)。其定义式为:
RBE(v*) = ∑v ∈ 𝒱\{v*}𝟙{sv > sv*}
其中v*是真实 token,𝒱是词汇表,sv是模型给 token v的预测分数,𝟙{ ⋅ }是指示函数(满足条件时取 1,否则取 0)。简单来说,RBE就是 “比真实 token 分数更高的其他 token 数量”——RBE越小,说明真实 token 排名越靠前,模型判断越准确。
举个极简例子:若词汇表仅有 A、B、C、D、E 五个 token,真实 token 是 B,模型给出的分数排序为 C(0.9)> B(0.7)> A(0.5)> D(0.3)> E(0.1),那么比 B 分数高的 token 只有 1 个(C),该样本的RBE = 1(Yan et al., 2025)。
基于RBE,我们可对所有样本分组:设RBE = e的样本数为ne,总样本数N = ∑ene,则RBE分布$p_e = \frac{n_e}{N}$(满足∑epe = 1的归一性)。值得注意的是,每个样本有且仅有一个RBE值,就像苹果按颜色分组不会重复或遗漏,所有组样本数之和必然等于N(Yan et al., 2025)。
三、核心突破:交叉熵的三重分解公式
通过RBE分布,Yan 等人成功将交叉熵损失拆解为三个物理意义明确的组件(Yan et al., 2025):
$-\sum_i \log s_{v^*}^{(i)} = \underbrace{-\sum_e p_e \log p_e}_{\mathrm{Error\text{-}Entropy}} + \underbrace{\sum_e p_e \log \frac{p_e}{q_e}}_{\mathrm{Self\text{-}Alignment}} - \underbrace{\log C}_{\mathrm{Confidence}}$
这三个组件分别对应模型性能的不同维度,且只有其中之一遵循幂律缩放:
1. Error-Entropy(误差熵):决策结果的 “集中性”
作为RBE分布的香农熵,Error-Entropy衡量的是真实 token 排名的集中程度(Yan et al., 2025)。它不仅关注模型 “是否能选对目标”,更强调 “好结果是否集中”—— 比如模型在 80% 的样本中都能将真实 token 排进前 5,而非 “有时排第 1、有时排第 100”。值越小,说明模型 “辨对错” 的能力越强且越稳定。
2. Self-Alignment(自对齐):资源分配的 “自洽性”
这一组件本质是RBE分布pe与归一化分数分布qe的KL散度(Yan et al., 2025),其中$q_e = \frac{Q_e}{C}$,Qe是RBE = e组分数的几何均值,C = ∑eQe为置信度总量。它衡量的是模型的 “分数资源” 是否匹配自身的错误模式:错误少的样本(RBE小)是否给了高分?错误多的样本(RBE大)是否给了低分?散度越小,说明模型内部逻辑越自洽,资源没有浪费在低价值结果上。
3. Confidence(置信度):选择的 “确定性”
作为置信度总量C的负对数,C越大意味着模型对高排名 token 的置信度越高,该项损失越小(Yan et al., 2025)。它对应的是决策者 “对选择的底气”:比如模型给真实 token 的分数是 0.9,而其他 token 最高仅 0.2,这种 “分数断层” 就体现了高确定性;反之,0.5 与 0.45 的微小差距则说明模型摇摆不定。
四、实验验证:谁才是缩放的 “真正主角”?
为验证三个组件的缩放特性,Yan 等人在Wikipedia、C4、GitHub三个数据集上,对 32 个跨 5 数量级(14M~70B 参数)的模型(覆盖GPT-2、Pythia、LLaMA等家族)进行了测试(Yan et al., 2025),得出两个关键结论:
仅 严格遵循幂律缩放:其双对数图的拟合度R2接近 0.9,显著高于交叉熵整体的拟合度,且缩放指数α稳定为负值;而Self-Alignment和Confidence均不具备幂律特征。
组件占比变化导致定律失效:小模型中Error-Entropy占交叉熵的 80%~90%,主导了整体的缩放行为;但大模型中其占比下降至 50% 以下,非缩放组件成为损失的主要构成,最终让传统交叉熵缩放定律 “失灵”(Yan et al., 2025)。
五、不止于学术:从模型性能到决策思维的启示
Yan 等人的研究不仅解决了缩放定律的理论谜题,更提供了可落地的实践价值(Yan et al., 2025):它解释了传统定律失效的本质,证明Error-Entropy可作为更精准的大模型缩放指标,甚至替代交叉熵成为训练目标;同时修正了认知 —— 模型概率分布并非对齐真实语言分布,而是对齐自身的错误规律。
更有趣的是,这三个组件可抽象为通用的 “决策质量三要素”,适用于各类选择场景(基于 Yan et al., 2025 的延伸解读):
→决策结果:目标达成度高且好结果集中吗?
→资源匹配:自身资源是否优先流向高价值结果?
→选择确定性:对决策有底气且愿意用行动背书吗?
这一视角让晦涩的学术概念变得实用:无论是选品时的预算分配、招聘时的候选人评估,还是个人职业规划,都可通过这三个维度复盘决策质量。
六、总结
Yan 等人(2025)的研究以RBE为钥匙,打开了交叉熵,首次明确了Error-Entropy才是大模型缩放的核心驱动因素。这不仅为大模型的性能预测与优化提供了理论依据,更将模型评估的逻辑延伸为一种普适的决策思维。对于大模型从业者而言,放弃对 “交叉熵整体” 的执着,聚焦Error-Entropy等核心组件,或许能在大模型研发中找到更高效的突破路径。
参考文献
Yan, J., Wei, Z., Zhan, J., Ai, Q., & Liu, Y. (2025). What scales in cross-entropy scaling law? arXiv preprint arXiv:2510.04067. https://arxiv.org/abs/2510.04067