大模型后训练领域,SFT与RL的核心逻辑常存在认知偏差,部分表述混淆技术本质,影响抗遗忘策略理解和落地。Chen等人(2025)与Shenfeld等人(2025)的研究明确了两者的核心差异与应用边界,本文基于这些结论,系统梳理SFT与RL的正确底层逻辑,纠正典型认知错误,为风险场景等实际应用提供参考。
一、表述正确的底层逻辑
1. SFT的核心特性
SFT基于off-policy离线标注数据训练,对所有样本权重相同,不做主动筛选,训练成本较低。标注数据中可能存在不同含义的黑Y标、难样本,SFT会不分权重的强行拟合这些数据,可能导致部分样本的学习效果受影响。例如支付风控场景中,若标注数据包含少量误判的正常交易,SFT会一并学习,可能降低对真实欺诈交易的识别精度。
2. RL的核心特性
RL基于on-policy实时生成的样本训练,聚焦当前模型能判断正确的样本,通过奖励函数权衡学习新样本与保留旧能力,避免策略分布大幅波动。这类特性使RL适合存量业务等对策略稳定性要求高的场景,需在新增风控规则时,不影响原有客户的风险判断逻辑。
3. 样本权重的实际意义
风险场景中样本存在优先级差异,比如支付风控中,新用户头3笔盗卡交易、国际卡交易的风险等级高于普通交易。RL能内化这种权重逻辑,而SFT若不额外配置权重,会对所有样本等价处理,无法突出高优先级样本的重要性,可能导致核心风险点识别不足。
4. on-policy与off-policy的基础定义
on-policy对应在线策略,样本随当前模型策略动态生成;off-policy对应离线策略,样本固定不变。两者的核心差异是样本是否贴合当前模型能力分布,与样本是否有标注、是否来自真实场景无关。这两个概念的形成与发展,背后是强化学习领域对数据利用效率与训练稳定性的长期权衡。
On-Policy 与 Off-Policy 的历史背景
这两个概念起源于强化学习(RL)的核心困境——“样本与策略的匹配问题”,其定义分化源于对“数据利用效率”与“训练稳定性”的权衡,最早可追溯至20世纪80年代RL算法的早期探索。
On-Policy 的诞生背景:早期RL算法(如1988年提出的Sarsa算法)的核心是“与环境实时交互学习”。比如训练机器人走路时,机器人必须通过实际迈步(执行当前策略)获取“走对/走错”的反馈,样本是“实时产生、与当前动作策略强绑定”的。这种模式下,样本天然贴合当前策略,无需额外处理“分布偏差”,因此被定义为On-Policy(“跟随当前策略”)。其设计初衷是保证训练稳定性,避免用“过时策略的样本”误导当前模型更新。
Off-Policy 的诞生背景:随着RL应用场景扩展(如自动驾驶、金融风控),实时交互的成本越来越高。比如自动驾驶不能反复撞车试错,风控不能实时生成大量欺诈样本。1992年Q-Learning算法提出后,首次实现“用历史数据/他人数据训练当前策略”,比如用其他机器人的走路数据、过去半年的风控日志训练新模型,无需实时交互。这种模式下,样本与当前策略可能脱节,但能极大提升数据利用效率,因此被定义为Off-Policy(“脱离当前策略”)。其设计初衷是突破实时交互的限制,灵活复用已有数据。
定义固化的核心原因:后续研究(如2000年后的Actor-Critic框架、2015年DQN算法)进一步验证了两者的适用边界——On-Policy稳定但数据效率低,Off-Policy灵活但需处理分布偏移。这种“稳定性-效率”的权衡,让两个定义成为RL领域的基础分类,并逐步延伸到大模型训练(如SFT对应Off-Policy,论文中的RL对应On-Policy)。
On-Policy 与 Off-Policy 的精准定义
1. 核心定义逻辑
两者的本质区别是“训练样本的生成是否依赖当前模型的决策策略”,与样本是否有标注、是否来自真实场景无关。具体定义如下表所示:
| 类型 | 核心定义 |
|---|---|
| On-Policy | 训练样本由当前模型的决策策略实时生成,样本分布与当前策略完全同步。 |
| Off-Policy | 训练样本来自固定离线数据(历史日志、人工标注、其他策略生成的数据),与当前模型的决策策略无关。 |
2. 通俗解读
On-Policy:相当于跟着自己的判断做事。比如风控模型当前的决策逻辑是重点查新用户头3笔交易,就实时生成这类场景的样本训练自己,样本完全贴合当前判断标准,不会出现用旧标准的样本训练新标准的矛盾。
Off-Policy:相当于照着别人的思路学习。比如风控模型用半年前的欺诈交易日志训练,这些日志的判断标准(比如当时重点查负债)可能和当前模型的标准(现在重点查征信)不一致,样本是固定的、与当前策略脱节的。
关键补充:与标注、数据真实性的无关性
与“标注”无关:标注是样本的目标结果属性(如“这笔交易是盗卡=1”),而On/Off-Policy是样本的生成方式属性。哪怕是无标注样本,只要由当前策略实时生成,就是On-Policy;哪怕是精准标注的样本,只要是固定离线数据,就是Off-Policy。
与“数据真实性”无关:On-Policy样本可以是模型生成的模拟数据(如大模型生成的风控场景样本),Off-Policy样本可以是真实场景日志。核心看是否由当前策略驱动生成,而非数据是否真实。
延伸:大模型训练
SFT是Off-Policy:用固定的人工标注数据训练,样本生成与当前模型策略无关(标注集确定后就不变),属于照着别人的思路学。
论文中的RL是On-Policy:用当前模型策略实时生成样本(比如风控模型生成新用户头3笔交易的响应),样本与当前策略同步,属于跟着自己的判断学。
5. 策略分布稳定的重要性
训练后策略分布大幅波动会导致业务使用风险。例如风控模型原本通过收入、负债判断用户风险,训练后变为收入、征信,可能导致大量历史低风险用户被误判为高风险。RL通过KL散度约束等方式控制这种波动,确保策略调整平稳。
二、表述错误的底层逻辑及纠正
1. 概念混淆:将Policy等同于标注
问题本质:混淆策略与标注的核心定义,两者是完全不同的机器学习概念。
正确逻辑:标注是样本的目标结果,比如盗卡交易=1、正常交易=0,是数据的属性;策略是模型的决策规则,比如月收入<5000且负债>20万→判定高风险,是模型的输出逻辑;on-policy的核心是样本由当前模型的决策策略实时生成,而非有标注,标注是样本的基础属性,与on/off policy无关。
2. RL标注难度的认知偏差
问题本质:误解RL标注/数据准备的核心难点,并非答案排序,而是策略权重定义、奖励函数设计等。
正确逻辑:RL的难度在于两方面,一是需要定义贴合业务的奖励函数,比如头3笔盗卡交易识别正确的奖励是普通交易的20倍;二是需要实时采样贴合当前策略的样本,而非单纯对标注答案排序。SFT的标注难度是获取固定的目标结果,而RL的标注/数据难度是量化样本的业务优先级和动态适配策略的样本生成。
3. SFT与RL效果差距的归因错误
问题本质:将SFT与RL的效果差距归因于标注工作量,忽视两者核心逻辑的本质差异。
正确逻辑:两者效果差距的核心是数据是否贴合当前策略分布。SFT用固定离线数据,即使增加标注工作量,也无法解决数据与模型策略偏差大导致的遗忘和分布波动。若要SFT逼近RL的抗遗忘效果,需通过Iterative-SFT等方案,每个epoch生成近似on-policy数据,而非单纯增加标注量,本质是调整数据属性,而非补齐标注工作量。
4. SFT抗遗忘方法的表述偏差
问题本质:将SFT抗遗忘的核心方法归结为参数限定,忽视分布约束的核心逻辑,且参数限定治标不治本。
正确逻辑:SFT抗遗忘的有效方法是控制数据分布和KL散度约束。控制数据分布可采用PSI筛选与旧数据分布接近的新数据;KL散度约束能控制新策略与旧策略的分布差异,而非单纯限定参数阈值。单纯限定参数会限制模型学习新任务的能力,导致新任务性能不足,正确思路是动态平衡,允许参数调整,但约束分布差异,而非静态冻结参数。
参考文献
Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874
Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259