1 min read

LLM:RL's Razor 抗遗忘

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills 核心差异 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24

在大模型后训练领域,长期受困于监督微调(SFT)带来的灾难性遗忘问题——模型学习新任务时易丢失原有知识,这一困境成为制约模型持续迭代的关键障碍。而Shenfeld、Pari与Agrawal(2025)提出的RL’s Razor原则,为这一问题提供了突破性解决方案,推动领域从“被动承受遗忘”向“主动控制遗忘”转变。

核心研究问题:SFT的灾难性遗忘困境

大模型通过SFT适配下游任务时,普遍存在灾难性遗忘现象:模型为贴合新任务的标注数据分布,需大幅调整原有参数,导致此前习得的知识被覆盖。这种遗忘并非模型能力上限问题,而是SFT依赖固定off-policy标注数据的固有缺陷——外部数据与模型原始策略分布可能存在较大偏差,强制适配过程必然破坏原有知识结构。

RL’s Razor原则:抗遗忘的核心逻辑

定义与核心机制

RL’s Razor原则的核心是:强化学习(RL)在策略更新时,会优先选择与原策略KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) )最小的路径。KL散度用于衡量两个概率分布的差异, \(D_{\mathrm{KL}}\) 值越小,说明新策略与原策略的偏离程度越低,对原有知识的破坏也就越小。

数据依赖的关键差异

RL与SFT的核心区别在于训练数据类型:

  • on-policy(同策略):核心是“用当前策略产数据,训当前策略”。数据为模型当前迭代阶段实时生成的结果(如RL训练中,模型基于最新参数输出的响应),与当前策略高度同步;训练时无需让模型强行适配外部数据,参数更新方向贴近原有结构,能最小化KL散度( \(D_{\mathrm{KL}}(P_{\mathrm{old}} \parallel P_{\mathrm{new}})\) ),减少对旧知识的覆盖。

  • off-policy(异策略):核心是“用非当前策略产数据,训当前策略”。数据脱离模型当前状态,多为外部固定资源(如SFT用的人工标注数据集、历史训练数据);这类数据与模型原始策略可能偏差大,训练时模型需强行贴合数据分布,易引发参数大幅变动,加剧灾难性遗忘。

两者核心差异可概括为:数据是否与“当前训练的策略”绑定。on-policy数据是“策略的即时产物”,off-policy数据是“脱离策略的外部素材”,这种本质区别直接导致了两者在训练效果和遗忘风险上的差异。

实验结论:RL的抗遗忘优势显著

Shenfeld等人(2025)的多任务连续学习实验显示:

  • RL的知识保留率较SFT高出29-31pp;

  • 较KL正则化方法高出13-16pp。

这一结果验证了RL’s Razor原则的有效性——通过最小化KL散度和依赖近似on-policy数据,RL在提升新任务性能的同时,能最大程度保留原有知识。而SFT因依赖固定标注数据,为贴合数据分布常需学习冗余答案,比如额外记忆标注数据中的非核心表述,这些冗余信息不仅占用模型参数空间,还会挤压原有知识的存储位置,进一步加剧灾难性遗忘(详见LLM:SFT 与 RL 的关系)。

实用价值:高效的抗遗忘解决方案

该研究的核心实用价值在于证明:近似on-policy数据缓解遗忘的效率,远高于获取成本极高的完全on-policy数据。这意味着在实际应用中,无需投入大量资源采集完全on-policy数据,仅通过RL框架利用模型实时生成的数据,即可实现高效抗遗忘的后训练,降低了大模型持续迭代的技术与成本门槛。

引用格式

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why Online Reinforcement Learning Forgets Less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘(2) 2025-09-04
21 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
23 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
24 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
25 LLM:幻觉成因与解决 2025-09-08
26 LLM:Agent 逻辑与应用场景 2025-09-23
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:先验偏见(1)变量名带偏判断 2025-11-13
32 LLM:先验偏见(2)分层分析应对 2025-11-13
33 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
34 LLM:分层落地 2025-11-13
35 LLM:零样本在金融场景落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills 核心差异 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24