1 min read

LLM:近似on-policy数据抗遗忘

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

继MIT团队提出RL’s Razor原则揭示RL抗遗忘的理论基础后,Chen、Razin、Narasimhan与Chen(2025)的研究进一步推动大模型后训练抗遗忘从理论探索走向实践落地。该研究通过更广泛的模型与任务验证,明确了on-policy数据是RL抗遗忘的核心,而非其他算法因素,并提出近似on-policy数据的高效解决方案,为工程化应用提供了关键参考。

核心发现

此前Shenfeld等人(2025)的研究提出RL’s Razor原则,指出RL通过最小化与原策略的KL散度减少遗忘,但未完全排除其他算法因素的影响。Chen等人(2025)的研究在此基础上,通过跨模型(Llama、Qwen)、跨规模(1B至8B)、跨任务(IFEval指令跟随、MMLU常识、Countdown算术推理)的系统实验,得出更明确的结论:

  • RL在所有测试场景中均保持比SFT更低的遗忘率,同时实现相当或更高的目标任务性能,例如Qwen 2.5 7B模型在Countdown任务中,RL的非目标任务准确率下降不足0.5%,而SFT下降达29.2%;

  • 大模型作为多模态分布载体,其遗忘动态需在多模态设定下解释——单模态设定中SFT(前向KL)更抗遗忘,但多模态设定下RL(反向KL)通过模式迁移而非模式覆盖,能在保留旧知识的同时学习新任务。

关键验证

为明确RL抗遗忘的核心驱动力,Chen等人(2025)通过 ablation实验排除了两种常见假设:

  • KL正则化并非关键:无KL正则的RL(GRPO算法,β=0.0)与有正则(β=0.05)的版本,在目标任务增益与非目标任务遗忘率上表现接近,仅Llama模型在IFEval任务中出现微小差异;

  • 优势估计并非关键:不包含优势估计的经典RL算法REINFORCE,虽目标任务增益略低于GRPO,但遗忘率与GRPO处于同一水平,远低于SFT。

实验证明,on-policy数据(模型当前策略生成的实时数据)才是RL抗遗忘的核心——其让RL具备模式寻求特性,仅调整与新任务相关的模式,不干扰代表旧知识的原有模式。

实践结论

完全on-policy数据需实时生成,计算成本较高。Chen等人(2025)的研究发现,近似on-policy数据即可大幅降低遗忘率,且获取效率更高:

  • Iterative-SFT方案:每个epoch初期基于当前模型生成数据,无需实时采样,其目标任务准确率高于或接近传统SFT,而遗忘率仅为传统SFT的1/5-1/3;

  • RL轨迹复用方案:将RL训练过程中产生的on-policy数据用于SFT训练,虽目标任务增益略低于原生RL,但遗忘率仅轻微上升,远优于传统SFT。

这一发现解决了完全on-policy数据的成本难题,让抗遗忘训练更易落地——无需重构训练框架,仅需优化数据生成方式即可。

与MIT研究的互补

两篇研究从不同维度揭示抗遗忘机制,形成互补:

  • Shenfeld等人(2025)聚焦KL散度与on-policy数据的理论关联,提出RL’s Razor原则,解释“为何RL遗忘更少”;

  • Chen等人(2025)聚焦工程化落地,验证核心影响因素,提出近似on-policy数据方案,回答“如何高效实现抗遗忘”。

此外,Chen等人(2025)发现,KL散度与遗忘率的相关性并非绝对单调——部分SFT变体虽KL散度更大,但遗忘率反而更低,说明抗遗忘机制需结合分布模态特性综合判断,而非单一依赖KL散度指标。

实用启示

基于该研究,大模型后训练可遵循以下实践路径:

  • 优先采用RL框架:若计算资源允许,GRPO等RL算法能在保证新任务性能的同时,最大程度保留旧知识;

  • 低成本替代方案:采用Iterative-SFT,每个epoch初基于当前模型生成近似on-policy数据,平衡效果与成本;

  • 数据复用方案:收集RL训练轨迹数据,用于SFT微调,快速降低遗忘率,适用于资源受限场景。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
24 LLM:幻觉成因与解决 2025-09-08
25 LLM:Agent 逻辑与应用场景 2025-09-23
26 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03