LLM：近似on-policy数据抗遗忘

继MIT团队提出RL’s Razor原则揭示RL抗遗忘的理论基础后，Chen、Razin、Narasimhan与Chen（2025）的研究进一步推动大模型后训练抗遗忘从理论探索走向实践落地。该研究通过更广泛的模型与任务验证，明确了on-policy数据是RL抗遗忘的核心，而非其他算法因素，并提出近似on-policy数据的高效解决方案，为工程化应用提供了关键参考。

核心发现

此前Shenfeld等人（2025）的研究提出RL’s Razor原则，指出RL通过最小化与原策略的KL散度减少遗忘，但未完全排除其他算法因素的影响。Chen等人（2025）的研究在此基础上，通过跨模型（Llama、Qwen）、跨规模（1B至8B）、跨任务（IFEval指令跟随、MMLU常识、Countdown算术推理）的系统实验，得出更明确的结论：

RL在所有测试场景中均保持比SFT更低的遗忘率，同时实现相当或更高的目标任务性能，例如Qwen 2.5 7B模型在Countdown任务中，RL的非目标任务准确率下降不足0.5%，而SFT下降达29.2%；
大模型作为多模态分布载体，其遗忘动态需在多模态设定下解释——单模态设定中SFT（前向KL）更抗遗忘，但多模态设定下RL（反向KL）通过模式迁移而非模式覆盖，能在保留旧知识的同时学习新任务。

关键验证

为明确RL抗遗忘的核心驱动力，Chen等人（2025）通过 ablation实验排除了两种常见假设：

KL正则化并非关键：无KL正则的RL（GRPO算法，β=0.0）与有正则（β=0.05）的版本，在目标任务增益与非目标任务遗忘率上表现接近，仅Llama模型在IFEval任务中出现微小差异；
优势估计并非关键：不包含优势估计的经典RL算法REINFORCE，虽目标任务增益略低于GRPO，但遗忘率与GRPO处于同一水平，远低于SFT。

实验证明，on-policy数据（模型当前策略生成的实时数据）才是RL抗遗忘的核心——其让RL具备模式寻求特性，仅调整与新任务相关的模式，不干扰代表旧知识的原有模式。

实践结论

完全on-policy数据需实时生成，计算成本较高。Chen等人（2025）的研究发现，近似on-policy数据即可大幅降低遗忘率，且获取效率更高：

Iterative-SFT方案：每个epoch初期基于当前模型生成数据，无需实时采样，其目标任务准确率高于或接近传统SFT，而遗忘率仅为传统SFT的1/5-1/3；
RL轨迹复用方案：将RL训练过程中产生的on-policy数据用于SFT训练，虽目标任务增益略低于原生RL，但遗忘率仅轻微上升，远优于传统SFT。

这一发现解决了完全on-policy数据的成本难题，让抗遗忘训练更易落地——无需重构训练框架，仅需优化数据生成方式即可。

与MIT研究的互补

两篇研究从不同维度揭示抗遗忘机制，形成互补：

Shenfeld等人（2025）聚焦KL散度与on-policy数据的理论关联，提出RL’s Razor原则，解释“为何RL遗忘更少”；
Chen等人（2025）聚焦工程化落地，验证核心影响因素，提出近似on-policy数据方案，回答“如何高效实现抗遗忘”。

此外，Chen等人（2025）发现，KL散度与遗忘率的相关性并非绝对单调——部分SFT变体虽KL散度更大，但遗忘率反而更低，说明抗遗忘机制需结合分布模态特性综合判断，而非单一依赖KL散度指标。

实用启示

基于该研究，大模型后训练可遵循以下实践路径：

优先采用RL框架：若计算资源允许，GRPO等RL算法能在保证新任务性能的同时，最大程度保留旧知识；
低成本替代方案：采用Iterative-SFT，每个epoch初基于当前模型生成近似on-policy数据，平衡效果与成本；
数据复用方案：收集RL训练轨迹数据，用于SFT微调，快速降低遗忘率，适用于资源受限场景。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259