1 min read

LLM:RL's Razor 抗遗忘(2)

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

大模型后训练领域,SFT(监督微调)与RL(强化学习)的核心逻辑常被简化甚至曲解。“SFT等比例学四种样本(TP、FP、TN、FN)”“RL刻意回避难样本”“KL散度约束参数改动”等表述,既违背技术本质,也可能导致抗遗忘策略设计失效。本文结合Chen等人(2025)与Shenfeld等人(2025)的论文结论,系统纠正三大核心表述偏差。

一、三大核心表述偏差

1. SFT与RL样本学习逻辑:不是“筛选偏好”,是“数据属性差异”

错误表述的核心问题,是将“SFT的被动拟合”与“RL的主动适配”混为一谈。两者的样本处理逻辑差异,根源在于数据来源的本质不同,而非主观筛选偏好。

  • SFT:拟合固定分布,无“等比例”或“筛选”属性 SFT依赖人工标注的固定离线数据,样本分布由标注集直接决定。标注集中TP(真阳性)、TN(真阴性)、FP(假阳性)、FN(假阴性)的比例是预设的——比如信用卡风控标注集中,逾期样本(阳性)可能仅占5%,正常样本占95%。SFT的作用是完整拟合这些数据的分布特征,既不会主动“等比例学习”,也不会对样本进行筛选,哪怕数据中错误标注或分布失衡,也会一并学习。

  • RL:适配当前策略,难样本自然过滤而非刻意放弃 论文中的RL采用on-policy方案,样本由当前模型策略实时生成,而非固定数据。筛选“正确样本”的核心目的,是确保数据与当前策略分布高度契合(近似on-policy),减少训练时的分布偏差。错误样本(难样本)被过滤,是因为它们与当前策略差异过大——比如模型当前无法识别“逾期概率80%但无历史逾期记录”的样本,生成的响应自然错误,这类样本若用于训练,会导致策略分布大幅波动,进而引发遗忘。随着模型迭代,策略能力提升,原本的难样本会逐渐转化为可适配的正确样本,实现从易到难的稳定学习。

2. 梯度下降:不是“两种类型”,是“目标函数差异”

错误表述将SFT与RL的梯度下降归为两类,忽视了两者的算法同源性。所有参数更新的核心都是梯度下降,差异仅体现在优化目标上。

  • SFT:最大似然估计的梯度下降 目标是最小化模型预测结果与标注数据的误差。比如在文本分类任务中,通过计算模型输出的类别概率与标注类别的交叉熵损失,沿梯度反方向调整参数,使模型逐渐贴合标注数据的分布。

  • RL:以Policy Gradient实现梯度下降 目标是双维度平衡——最大化样本的累积奖励(提升新任务性能),同时最小化与旧策略的KL散度(减少遗忘)。Policy Gradient是梯度下降在RL场景的具体应用形式,通过计算“奖励加权的策略对数概率梯度”更新参数,本质仍是沿梯度方向优化目标函数,与SFT的算法核心完全一致。

3. KL散度约束:不是“限制参数改动”,是“控制分布差异”

这一偏差是抗遗忘策略设计的关键误区,将“参数变动”与“策略分布变动”划等号,忽视了两者的非必然关联。

KL散度约束的核心对象是“策略分布”,而非参数本身。策略分布体现为模型对任务的核心判断逻辑——比如信用卡风控中,“月收入低于5000且负债高于20万”的用户被判定为高风险的比例。训练新任务时,参数可能出现正常调整,但只要这类核心判断逻辑的分布与旧策略差异小(KL散度低),旧任务能力就不会丢失。Chen等人(2025)的实验显示,模型参数调整幅度与KL散度的相关系数低,证明参数改动不等于分布差异,这才是抗遗忘训练的结果。

二、为何这些偏差会导致实践失效?

1. 固定参数治标不治本:静态冻结无法平衡新旧任务

部分实践中采用“固定旧任务相关参数”的方式保留记忆,这种方案的缺陷在于限制模型学习能力。旧参数是为旧任务优化的,新任务可能需要调整这些参数才能适配——比如旧任务是老产品线风控,新任务是新产品线风控,两者对“资产负债”的权重需求不同,强行固定旧参数会导致新任务性能下降。

KL散度约束的优势在于动态平衡:允许所有参数自由调整,但通过控制策略分布差异,确保调整方向不偏离旧任务核心逻辑。实验数据显示,这种方案较固定参数方案,新任务准确率提升,旧任务遗忘率控制在一定范围以内,实现两者兼顾。

2. RL“学易样本”:是课程学习逻辑,而非能力局限

将RL“学易样本”解读为“不敢学难样本”,会误解其迭代本质。RL的样本生成与筛选过程,完全遵循课程学习逻辑:

  • 初始阶段:模型能力有限,仅能生成少量正确样本(易样本),训练后参数小幅调整,策略能力轻微提升;

  • 迭代阶段:能力提升后的模型生成更多类型的样本,部分原本的难样本转化为易样本,被纳入训练范围,策略边界逐步扩展;

  • 成熟阶段:模型可生成绝大多数任务相关样本,正确样本覆盖易、中、难全范围,最终实现完整能力覆盖。

Shenfeld等人(2025)的实验中,RL经过几轮迭代后,难样本的正确生成率提升,证明其并非回避难样本,而是以更稳定的方式逐步攻克。

3. 分布差异与遗忘

遗忘的本质不是参数改动,而是旧任务的策略分布被破坏。比如在旧任务中,模型对“逾期用户”的判断分布为“高负债占60%、无收入占30%、其他占10%”,新任务训练后,若该分布变为“高负债占20%、征信不良占70%、其他占10%”,则模型对旧任务中“高负债但征信良好”的用户判断会出现偏差,表现为遗忘。

KL散度与PSI(KL的对称版本)的核心作用,是量化这种分布差异。指标数值低,说明新旧策略分布接近,旧任务核心逻辑被保留;数值高则提示分布波动过大,需调整训练策略(如降低学习率、增强KL约束)。

4. SFT分布波动:off-policy数据的天然缺陷

SFT容易导致分布波动,根源在于其使用的off-policy离线数据。这些数据的分布与模型原始策略可能差异大。SFT的目标是拟合离线数据,为了提升标注数据的预测准确率,模型会强行调整参数以适配新分布,这就必然导致旧策略分布被覆盖。Chen等人(2025)的对比实验显示,SFT训练后,旧任务策略分布的KL散度较RL高,这是其遗忘率高的直接原因。

结语

SFT与RL的训练逻辑,直接影响抗遗忘策略的设计效果。核心结论可概括为三点:

  1. 样本逻辑差异源于数据属性:SFT拟合固定数据,RL适配动态策略,前者被动接受分布,后者主动匹配分布;

  2. 梯度下降同源异目标:两者均基于梯度下降,差异在SFT优化拟合误差,RL平衡奖励与策略分布变化值;

  3. 抗遗忘核心是分布稳定:KL散度约束分布而非参数,固定参数是静态妥协,动态平衡才是关键。

大模型训练的效果提升,始于对基础逻辑理解,避免简化表述带来的偏差,才能让技术落地更贴合其本质规律。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03