在大模型后训练领域,长期受困于监督微调(SFT)带来的灾难性遗忘问题——模型学习新任务时易丢失原有知识,这一困境成为制约模型持续迭代的关键障碍。而Shenfeld、Pari与Agrawal(2025)提出的RL’s Razor原则,为这一问题提供了突破性解决方案,推动领域从“被动承受遗忘”向“主动控制遗忘”转变。
核心研究问题:SFT的灾难性遗忘困境
大模型通过SFT适配下游任务时,普遍存在灾难性遗忘现象:模型为贴合新任务的标注数据分布,需大幅调整原有参数,导致此前习得的知识被覆盖。这种遗忘并非模型能力上限问题,而是SFT依赖固定off-policy标注数据的固有缺陷——外部数据与模型原始策略分布可能存在较大偏差,强制适配过程必然破坏原有知识结构。
RL’s Razor原则:抗遗忘的核心逻辑
定义与核心机制
RL’s Razor原则的核心是:强化学习(RL)在策略更新时,会优先选择与原策略KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) )最小的路径。KL散度用于衡量两个概率分布的差异, \(D_{\mathrm{KL}}\) 值越小,说明新策略与原策略的偏离程度越低,对原有知识的破坏也就越小。
数据依赖的关键差异
RL与SFT的核心区别在于训练数据类型:
on-policy(同策略):核心是“用当前策略产数据,训当前策略”。数据为模型当前迭代阶段实时生成的结果(如RL训练中,模型基于最新参数输出的响应),与当前策略高度同步;训练时无需让模型强行适配外部数据,参数更新方向贴近原有结构,能最小化KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) ),减少对旧知识的覆盖。
off-policy(异策略):核心是“用非当前策略产数据,训当前策略”。数据脱离模型当前状态,多为外部固定资源(如SFT用的人工标注数据集、历史训练数据);这类数据与模型原始策略可能偏差大,训练时模型需强行贴合数据分布,易引发参数大幅变动,加剧灾难性遗忘。
两者核心差异可概括为:数据是否与“当前训练的策略”绑定。on-policy数据是“策略的即时产物”,off-policy数据是“脱离策略的外部素材”,这种本质区别直接导致了两者在训练效果和遗忘风险上的差异。
实验结论:RL的抗遗忘优势显著
Shenfeld等人(2025)的多任务连续学习实验显示:
RL的知识保留率较SFT高出29-31pp;
较KL正则化方法高出13-16pp。
这一结果验证了RL’s Razor原则的有效性——通过最小化KL散度和依赖近似on-policy数据,RL在提升新任务性能的同时,能最大程度保留原有知识。而SFT因依赖固定标注数据,为贴合数据分布常需学习冗余答案,比如额外记忆标注数据中的非核心表述,这些冗余信息不仅占用模型参数空间,还会挤压原有知识的存储位置,进一步加剧灾难性遗忘(详见LLM:SFT 与 RL 的关系)。
实用价值:高效的抗遗忘解决方案
该研究的核心实用价值在于证明:近似on-policy数据缓解遗忘的效率,远高于获取成本极高的完全on-policy数据。这意味着在实际应用中,无需投入大量资源采集完全on-policy数据,仅通过RL框架利用模型实时生成的数据,即可实现高效抗遗忘的后训练,降低了大模型持续迭代的技术与成本门槛。
引用格式
Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why Online Reinforcement Learning Forgets Less. arXiv. https://arxiv.org/abs/2509.04259