大模型后训练领域,SFT(监督微调)与RL(强化学习)的核心逻辑常被简化甚至曲解。“SFT等比例学四种样本(TP、FP、TN、FN)”“RL刻意回避难样本”“KL散度约束参数改动”等表述,既违背技术本质,也可能导致抗遗忘策略设计失效。本文结合Chen等人(2025)与Shenfeld等人(2025)的论文结论,系统纠正三大核心表述偏差。
一、三大核心表述偏差
1. SFT与RL样本学习逻辑:不是“筛选偏好”,是“数据属性差异”
错误表述的核心问题,是将“SFT的被动拟合”与“RL的主动适配”混为一谈。两者的样本处理逻辑差异,根源在于数据来源的本质不同,而非主观筛选偏好。
SFT:拟合固定分布,无“等比例”或“筛选”属性 SFT依赖人工标注的固定离线数据,样本分布由标注集直接决定。标注集中TP(真阳性)、TN(真阴性)、FP(假阳性)、FN(假阴性)的比例是预设的——比如信用卡风控标注集中,逾期样本(阳性)可能仅占5%,正常样本占95%。SFT的作用是完整拟合这些数据的分布特征,既不会主动“等比例学习”,也不会对样本进行筛选,哪怕数据中错误标注或分布失衡,也会一并学习。
RL:适配当前策略,难样本自然过滤而非刻意放弃 论文中的RL采用on-policy方案,样本由当前模型策略实时生成,而非固定数据。筛选“正确样本”的核心目的,是确保数据与当前策略分布高度契合(近似on-policy),减少训练时的分布偏差。错误样本(难样本)被过滤,是因为它们与当前策略差异过大——比如模型当前无法识别“逾期概率80%但无历史逾期记录”的样本,生成的响应自然错误,这类样本若用于训练,会导致策略分布大幅波动,进而引发遗忘。随着模型迭代,策略能力提升,原本的难样本会逐渐转化为可适配的正确样本,实现从易到难的稳定学习。
2. 梯度下降:不是“两种类型”,是“目标函数差异”
错误表述将SFT与RL的梯度下降归为两类,忽视了两者的算法同源性。所有参数更新的核心都是梯度下降,差异仅体现在优化目标上。
SFT:最大似然估计的梯度下降 目标是最小化模型预测结果与标注数据的误差。比如在文本分类任务中,通过计算模型输出的类别概率与标注类别的交叉熵损失,沿梯度反方向调整参数,使模型逐渐贴合标注数据的分布。
RL:以Policy Gradient实现梯度下降 目标是双维度平衡——最大化样本的累积奖励(提升新任务性能),同时最小化与旧策略的KL散度(减少遗忘)。Policy Gradient是梯度下降在RL场景的具体应用形式,通过计算“奖励加权的策略对数概率梯度”更新参数,本质仍是沿梯度方向优化目标函数,与SFT的算法核心完全一致。
3. KL散度约束:不是“限制参数改动”,是“控制分布差异”
这一偏差是抗遗忘策略设计的关键误区,将“参数变动”与“策略分布变动”划等号,忽视了两者的非必然关联。
KL散度约束的核心对象是“策略分布”,而非参数本身。策略分布体现为模型对任务的核心判断逻辑——比如信用卡风控中,“月收入低于5000且负债高于20万”的用户被判定为高风险的比例。训练新任务时,参数可能出现正常调整,但只要这类核心判断逻辑的分布与旧策略差异小(KL散度低),旧任务能力就不会丢失。Chen等人(2025)的实验显示,模型参数调整幅度与KL散度的相关系数低,证明参数改动不等于分布差异,这才是抗遗忘训练的结果。
二、为何这些偏差会导致实践失效?
1. 固定参数治标不治本:静态冻结无法平衡新旧任务
部分实践中采用“固定旧任务相关参数”的方式保留记忆,这种方案的缺陷在于限制模型学习能力。旧参数是为旧任务优化的,新任务可能需要调整这些参数才能适配——比如旧任务是老产品线风控,新任务是新产品线风控,两者对“资产负债”的权重需求不同,强行固定旧参数会导致新任务性能下降。
KL散度约束的优势在于动态平衡:允许所有参数自由调整,但通过控制策略分布差异,确保调整方向不偏离旧任务核心逻辑。实验数据显示,这种方案较固定参数方案,新任务准确率提升,旧任务遗忘率控制在一定范围以内,实现两者兼顾。
2. RL“学易样本”:是课程学习逻辑,而非能力局限
将RL“学易样本”解读为“不敢学难样本”,会误解其迭代本质。RL的样本生成与筛选过程,完全遵循课程学习逻辑:
初始阶段:模型能力有限,仅能生成少量正确样本(易样本),训练后参数小幅调整,策略能力轻微提升;
迭代阶段:能力提升后的模型生成更多类型的样本,部分原本的难样本转化为易样本,被纳入训练范围,策略边界逐步扩展;
成熟阶段:模型可生成绝大多数任务相关样本,正确样本覆盖易、中、难全范围,最终实现完整能力覆盖。
Shenfeld等人(2025)的实验中,RL经过几轮迭代后,难样本的正确生成率提升,证明其并非回避难样本,而是以更稳定的方式逐步攻克。
3. 分布差异与遗忘
遗忘的本质不是参数改动,而是旧任务的策略分布被破坏。比如在旧任务中,模型对“逾期用户”的判断分布为“高负债占60%、无收入占30%、其他占10%”,新任务训练后,若该分布变为“高负债占20%、征信不良占70%、其他占10%”,则模型对旧任务中“高负债但征信良好”的用户判断会出现偏差,表现为遗忘。
KL散度与PSI(KL的对称版本)的核心作用,是量化这种分布差异。指标数值低,说明新旧策略分布接近,旧任务核心逻辑被保留;数值高则提示分布波动过大,需调整训练策略(如降低学习率、增强KL约束)。
4. SFT分布波动:off-policy数据的天然缺陷
SFT容易导致分布波动,根源在于其使用的off-policy离线数据。这些数据的分布与模型原始策略可能差异大。SFT的目标是拟合离线数据,为了提升标注数据的预测准确率,模型会强行调整参数以适配新分布,这就必然导致旧策略分布被覆盖。Chen等人(2025)的对比实验显示,SFT训练后,旧任务策略分布的KL散度较RL高,这是其遗忘率高的直接原因。
结语
SFT与RL的训练逻辑,直接影响抗遗忘策略的设计效果。核心结论可概括为三点:
样本逻辑差异源于数据属性:SFT拟合固定数据,RL适配动态策略,前者被动接受分布,后者主动匹配分布;
梯度下降同源异目标:两者均基于梯度下降,差异在SFT优化拟合误差,RL平衡奖励与策略分布变化值;
抗遗忘核心是分布稳定:KL散度约束分布而非参数,固定参数是静态妥协,动态平衡才是关键。
大模型训练的效果提升,始于对基础逻辑理解,避免简化表述带来的偏差,才能让技术落地更贴合其本质规律。
参考文献
Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874
Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259