1 min read

LLM：RL's Razor 抗遗忘（2）

2025/09/04

大模型后训练领域，SFT（监督微调）与RL（强化学习）的核心逻辑常被简化甚至曲解。“SFT等比例学四种样本（TP、FP、TN、FN）”“RL刻意回避难样本”“KL散度约束参数改动”等表述，既违背技术本质，也可能导致抗遗忘策略设计失效。本文结合Chen等人（2025）与Shenfeld等人（2025）的论文结论，系统纠正三大核心表述偏差。

一、三大核心表述偏差

1. SFT与RL样本学习逻辑：不是“筛选偏好”，是“数据属性差异”

错误表述的核心问题，是将“SFT的被动拟合”与“RL的主动适配”混为一谈。两者的样本处理逻辑差异，根源在于数据来源的本质不同，而非主观筛选偏好。

SFT：拟合固定分布，无“等比例”或“筛选”属性 SFT依赖人工标注的固定离线数据，样本分布由标注集直接决定。标注集中TP（真阳性）、TN（真阴性）、FP（假阳性）、FN（假阴性）的比例是预设的——比如信用卡风控标注集中，逾期样本（阳性）可能仅占5%，正常样本占95%。SFT的作用是完整拟合这些数据的分布特征，既不会主动“等比例学习”，也不会对样本进行筛选，哪怕数据中错误标注或分布失衡，也会一并学习。
RL：适配当前策略，难样本自然过滤而非刻意放弃 论文中的RL采用on-policy方案，样本由当前模型策略实时生成，而非固定数据。筛选“正确样本”的核心目的，是确保数据与当前策略分布高度契合（近似on-policy），减少训练时的分布偏差。错误样本（难样本）被过滤，是因为它们与当前策略差异过大——比如模型当前无法识别“逾期概率80%但无历史逾期记录”的样本，生成的响应自然错误，这类样本若用于训练，会导致策略分布大幅波动，进而引发遗忘。随着模型迭代，策略能力提升，原本的难样本会逐渐转化为可适配的正确样本，实现从易到难的稳定学习。

2. 梯度下降：不是“两种类型”，是“目标函数差异”

错误表述将SFT与RL的梯度下降归为两类，忽视了两者的算法同源性。所有参数更新的核心都是梯度下降，差异仅体现在优化目标上。

SFT：最大似然估计的梯度下降 目标是最小化模型预测结果与标注数据的误差。比如在文本分类任务中，通过计算模型输出的类别概率与标注类别的交叉熵损失，沿梯度反方向调整参数，使模型逐渐贴合标注数据的分布。
RL：以Policy Gradient实现梯度下降 目标是双维度平衡——最大化样本的累积奖励（提升新任务性能），同时最小化与旧策略的KL散度（减少遗忘）。Policy Gradient是梯度下降在RL场景的具体应用形式，通过计算“奖励加权的策略对数概率梯度”更新参数，本质仍是沿梯度方向优化目标函数，与SFT的算法核心完全一致。

3. KL散度约束：不是“限制参数改动”，是“控制分布差异”

这一偏差是抗遗忘策略设计的关键误区，将“参数变动”与“策略分布变动”划等号，忽视了两者的非必然关联。

KL散度约束的核心对象是“策略分布”，而非参数本身。策略分布体现为模型对任务的核心判断逻辑——比如信用卡风控中，“月收入低于5000且负债高于20万”的用户被判定为高风险的比例。训练新任务时，参数可能出现正常调整，但只要这类核心判断逻辑的分布与旧策略差异小（KL散度低），旧任务能力就不会丢失。Chen等人（2025）的实验显示，模型参数调整幅度与KL散度的相关系数低，证明参数改动不等于分布差异，这才是抗遗忘训练的结果。

二、为何这些偏差会导致实践失效？

1. 固定参数治标不治本：静态冻结无法平衡新旧任务

部分实践中采用“固定旧任务相关参数”的方式保留记忆，这种方案的缺陷在于限制模型学习能力。旧参数是为旧任务优化的，新任务可能需要调整这些参数才能适配——比如旧任务是老产品线风控，新任务是新产品线风控，两者对“资产负债”的权重需求不同，强行固定旧参数会导致新任务性能下降。

KL散度约束的优势在于动态平衡：允许所有参数自由调整，但通过控制策略分布差异，确保调整方向不偏离旧任务核心逻辑。实验数据显示，这种方案较固定参数方案，新任务准确率提升，旧任务遗忘率控制在一定范围以内，实现两者兼顾。

2. RL“学易样本”：是课程学习逻辑，而非能力局限

将RL“学易样本”解读为“不敢学难样本”，会误解其迭代本质。RL的样本生成与筛选过程，完全遵循课程学习逻辑：

初始阶段：模型能力有限，仅能生成少量正确样本（易样本），训练后参数小幅调整，策略能力轻微提升；
迭代阶段：能力提升后的模型生成更多类型的样本，部分原本的难样本转化为易样本，被纳入训练范围，策略边界逐步扩展；
成熟阶段：模型可生成绝大多数任务相关样本，正确样本覆盖易、中、难全范围，最终实现完整能力覆盖。

Shenfeld等人（2025）的实验中，RL经过几轮迭代后，难样本的正确生成率提升，证明其并非回避难样本，而是以更稳定的方式逐步攻克。

3. 分布差异与遗忘

遗忘的本质不是参数改动，而是旧任务的策略分布被破坏。比如在旧任务中，模型对“逾期用户”的判断分布为“高负债占60%、无收入占30%、其他占10%”，新任务训练后，若该分布变为“高负债占20%、征信不良占70%、其他占10%”，则模型对旧任务中“高负债但征信良好”的用户判断会出现偏差，表现为遗忘。

KL散度与PSI（KL的对称版本）的核心作用，是量化这种分布差异。指标数值低，说明新旧策略分布接近，旧任务核心逻辑被保留；数值高则提示分布波动过大，需调整训练策略（如降低学习率、增强KL约束）。

4. SFT分布波动：off-policy数据的天然缺陷

SFT容易导致分布波动，根源在于其使用的off-policy离线数据。这些数据的分布与模型原始策略可能差异大。SFT的目标是拟合离线数据，为了提升标注数据的预测准确率，模型会强行调整参数以适配新分布，这就必然导致旧策略分布被覆盖。Chen等人（2025）的对比实验显示，SFT训练后，旧任务策略分布的KL散度较RL高，这是其遗忘率高的直接原因。

结语

SFT与RL的训练逻辑，直接影响抗遗忘策略的设计效果。核心结论可概括为三点：

样本逻辑差异源于数据属性：SFT拟合固定数据，RL适配动态策略，前者被动接受分布，后者主动匹配分布；
梯度下降同源异目标：两者均基于梯度下降，差异在SFT优化拟合误差，RL平衡奖励与策略分布变化值；
抗遗忘核心是分布稳定：KL散度约束分布而非参数，固定参数是静态妥协，动态平衡才是关键。

大模型训练的效果提升，始于对基础逻辑理解，避免简化表述带来的偏差，才能让技术落地更贴合其本质规律。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259