1 min read

LLM:RL's Razor 抗遗忘

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在大模型后训练领域,长期受困于监督微调(SFT)带来的灾难性遗忘问题——模型学习新任务时易丢失原有知识,这一困境成为制约模型持续迭代的关键障碍。而Shenfeld、Pari与Agrawal(2025)提出的RL’s Razor原则,为这一问题提供了突破性解决方案,推动领域从“被动承受遗忘”向“主动控制遗忘”转变。

核心研究问题:SFT的灾难性遗忘困境

大模型通过SFT适配下游任务时,普遍存在灾难性遗忘现象:模型为贴合新任务的标注数据分布,需大幅调整原有参数,导致此前习得的知识被覆盖。这种遗忘并非模型能力上限问题,而是SFT依赖固定off-policy标注数据的固有缺陷——外部数据与模型原始策略分布可能存在较大偏差,强制适配过程必然破坏原有知识结构。

RL’s Razor原则:抗遗忘的核心逻辑

定义与核心机制

RL’s Razor原则的核心是:强化学习(RL)在策略更新时,会优先选择与原策略KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) )最小的路径。KL散度用于衡量两个概率分布的差异, \(D_{\mathrm{KL}}\) 值越小,说明新策略与原策略的偏离程度越低,对原有知识的破坏也就越小。

数据依赖的关键差异

RL与SFT的核心区别在于训练数据类型:

  • on-policy(同策略):核心是“用当前策略产数据,训当前策略”。数据为模型当前迭代阶段实时生成的结果(如RL训练中,模型基于最新参数输出的响应),与当前策略高度同步;训练时无需让模型强行适配外部数据,参数更新方向贴近原有结构,能最小化KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) ),减少对旧知识的覆盖。

  • off-policy(异策略):核心是“用非当前策略产数据,训当前策略”。数据脱离模型当前状态,多为外部固定资源(如SFT用的人工标注数据集、历史训练数据);这类数据与模型原始策略可能偏差大,训练时模型需强行贴合数据分布,易引发参数大幅变动,加剧灾难性遗忘。

两者核心差异可概括为:数据是否与“当前训练的策略”绑定。on-policy数据是“策略的即时产物”,off-policy数据是“脱离策略的外部素材”,这种本质区别直接导致了两者在训练效果和遗忘风险上的差异。

实验结论:RL的抗遗忘优势显著

Shenfeld等人(2025)的多任务连续学习实验显示:

  • RL的知识保留率较SFT高出29-31pp;

  • 较KL正则化方法高出13-16pp。

这一结果验证了RL’s Razor原则的有效性——通过最小化KL散度和依赖近似on-policy数据,RL在提升新任务性能的同时,能最大程度保留原有知识。而SFT因依赖固定标注数据,为贴合数据分布常需学习冗余答案,比如额外记忆标注数据中的非核心表述,这些冗余信息不仅占用模型参数空间,还会挤压原有知识的存储位置,进一步加剧灾难性遗忘(详见LLM:SFT 与 RL 的关系)。

实用价值:高效的抗遗忘解决方案

该研究的核心实用价值在于证明:近似on-policy数据缓解遗忘的效率,远高于获取成本极高的完全on-policy数据。这意味着在实际应用中,无需投入大量资源采集完全on-policy数据,仅通过RL框架利用模型实时生成的数据,即可实现高效抗遗忘的后训练,降低了大模型持续迭代的技术与成本门槛。

引用格式

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why Online Reinforcement Learning Forgets Less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03