LLM：RL's Razor 抗遗忘

在大模型后训练领域，长期受困于监督微调（SFT）带来的灾难性遗忘问题——模型学习新任务时易丢失原有知识，这一困境成为制约模型持续迭代的关键障碍。而Shenfeld、Pari与Agrawal（2025）提出的RL’s Razor原则，为这一问题提供了突破性解决方案，推动领域从“被动承受遗忘”向“主动控制遗忘”转变。

核心研究问题：SFT的灾难性遗忘困境

大模型通过SFT适配下游任务时，普遍存在灾难性遗忘现象：模型为贴合新任务的标注数据分布，需大幅调整原有参数，导致此前习得的知识被覆盖。这种遗忘并非模型能力上限问题，而是SFT依赖固定off-policy标注数据的固有缺陷——外部数据与模型原始策略分布可能存在较大偏差，强制适配过程必然破坏原有知识结构。

RL’s Razor原则：抗遗忘的核心逻辑

定义与核心机制

RL’s Razor原则的核心是：强化学习（RL）在策略更新时，会优先选择与原策略KL散度（ \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) ）最小的路径。KL散度用于衡量两个概率分布的差异， \(D_{\mathrm{KL}}\) 值越小，说明新策略与原策略的偏离程度越低，对原有知识的破坏也就越小。

数据依赖的关键差异

RL与SFT的核心区别在于训练数据类型：

on-policy（同策略）：核心是“用当前策略产数据，训当前策略”。数据为模型当前迭代阶段实时生成的结果（如RL训练中，模型基于最新参数输出的响应），与当前策略高度同步；训练时无需让模型强行适配外部数据，参数更新方向贴近原有结构，能最小化KL散度（ \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) ），减少对旧知识的覆盖。
off-policy（异策略）：核心是“用非当前策略产数据，训当前策略”。数据脱离模型当前状态，多为外部固定资源（如SFT用的人工标注数据集、历史训练数据）；这类数据与模型原始策略可能偏差大，训练时模型需强行贴合数据分布，易引发参数大幅变动，加剧灾难性遗忘。

两者核心差异可概括为：数据是否与“当前训练的策略”绑定。on-policy数据是“策略的即时产物”，off-policy数据是“脱离策略的外部素材”，这种本质区别直接导致了两者在训练效果和遗忘风险上的差异。

实验结论：RL的抗遗忘优势显著

Shenfeld等人（2025）的多任务连续学习实验显示：

RL的知识保留率较SFT高出29-31pp；
较KL正则化方法高出13-16pp。

这一结果验证了RL’s Razor原则的有效性——通过最小化KL散度和依赖近似on-policy数据，RL在提升新任务性能的同时，能最大程度保留原有知识。而SFT因依赖固定标注数据，为贴合数据分布常需学习冗余答案，比如额外记忆标注数据中的非核心表述，这些冗余信息不仅占用模型参数空间，还会挤压原有知识的存储位置，进一步加剧灾难性遗忘（详见LLM：SFT 与 RL 的关系）。

实用价值：高效的抗遗忘解决方案

该研究的核心实用价值在于证明：近似on-policy数据缓解遗忘的效率，远高于获取成本极高的完全on-policy数据。这意味着在实际应用中，无需投入大量资源采集完全on-policy数据，仅通过RL框架利用模型实时生成的数据，即可实现高效抗遗忘的后训练，降低了大模型持续迭代的技术与成本门槛。

引用格式

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why Online Reinforcement Learning Forgets Less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航