1 min read

LLM：RL's Razor 抗遗忘（3）SFT 与 RL 的认知偏差及应用

2025/09/04

大模型后训练领域，SFT与RL的核心逻辑常存在认知偏差，部分表述混淆技术本质，影响抗遗忘策略理解和落地。Chen等人（2025）与Shenfeld等人（2025）的研究明确了两者的核心差异与应用边界，本文基于这些结论，系统梳理SFT与RL的正确底层逻辑，纠正典型认知错误，为风险场景等实际应用提供参考。

一、表述正确的底层逻辑

1. SFT的核心特性

SFT基于off-policy离线标注数据训练，对所有样本权重相同，不做主动筛选，训练成本较低。标注数据中可能存在不同含义的黑Y标、难样本，SFT会不分权重的强行拟合这些数据，可能导致部分样本的学习效果受影响。例如支付风控场景中，若标注数据包含少量误判的正常交易，SFT会一并学习，可能降低对真实欺诈交易的识别精度。

2. RL的核心特性

RL基于on-policy实时生成的样本训练，聚焦当前模型能判断正确的样本，通过奖励函数权衡学习新样本与保留旧能力，避免策略分布大幅波动。这类特性使RL适合存量业务等对策略稳定性要求高的场景，需在新增风控规则时，不影响原有客户的风险判断逻辑。

3. 样本权重的实际意义

风险场景中样本存在优先级差异，比如支付风控中，新用户头3笔盗卡交易、国际卡交易的风险等级高于普通交易。RL能内化这种权重逻辑，而SFT若不额外配置权重，会对所有样本等价处理，无法突出高优先级样本的重要性，可能导致核心风险点识别不足。

4. on-policy与off-policy的基础定义

on-policy对应在线策略，样本随当前模型策略动态生成；off-policy对应离线策略，样本固定不变。两者的核心差异是样本是否贴合当前模型能力分布，与样本是否有标注、是否来自真实场景无关。这两个概念的形成与发展，背后是强化学习领域对数据利用效率与训练稳定性的长期权衡。

On-Policy 与 Off-Policy 的历史背景

这两个概念起源于强化学习（RL）的核心困境——“样本与策略的匹配问题”，其定义分化源于对“数据利用效率”与“训练稳定性”的权衡，最早可追溯至20世纪80年代RL算法的早期探索。

On-Policy 的诞生背景：早期RL算法（如1988年提出的Sarsa算法）的核心是“与环境实时交互学习”。比如训练机器人走路时，机器人必须通过实际迈步（执行当前策略）获取“走对/走错”的反馈，样本是“实时产生、与当前动作策略强绑定”的。这种模式下，样本天然贴合当前策略，无需额外处理“分布偏差”，因此被定义为On-Policy（“跟随当前策略”）。其设计初衷是保证训练稳定性，避免用“过时策略的样本”误导当前模型更新。
Off-Policy 的诞生背景：随着RL应用场景扩展（如自动驾驶、金融风控），实时交互的成本越来越高。比如自动驾驶不能反复撞车试错，风控不能实时生成大量欺诈样本。1992年Q-Learning算法提出后，首次实现“用历史数据/他人数据训练当前策略”，比如用其他机器人的走路数据、过去半年的风控日志训练新模型，无需实时交互。这种模式下，样本与当前策略可能脱节，但能极大提升数据利用效率，因此被定义为Off-Policy（“脱离当前策略”）。其设计初衷是突破实时交互的限制，灵活复用已有数据。
定义固化的核心原因：后续研究（如2000年后的Actor-Critic框架、2015年DQN算法）进一步验证了两者的适用边界——On-Policy稳定但数据效率低，Off-Policy灵活但需处理分布偏移。这种“稳定性-效率”的权衡，让两个定义成为RL领域的基础分类，并逐步延伸到大模型训练（如SFT对应Off-Policy，论文中的RL对应On-Policy）。

On-Policy 与 Off-Policy 的精准定义

1. 核心定义逻辑

两者的本质区别是“训练样本的生成是否依赖当前模型的决策策略”，与样本是否有标注、是否来自真实场景无关。具体定义如下表所示：

类型	核心定义
On-Policy	训练样本由当前模型的决策策略实时生成，样本分布与当前策略完全同步。
Off-Policy	训练样本来自固定离线数据（历史日志、人工标注、其他策略生成的数据），与当前模型的决策策略无关。

2. 通俗解读

On-Policy：相当于跟着自己的判断做事。比如风控模型当前的决策逻辑是重点查新用户头3笔交易，就实时生成这类场景的样本训练自己，样本完全贴合当前判断标准，不会出现用旧标准的样本训练新标准的矛盾。
Off-Policy：相当于照着别人的思路学习。比如风控模型用半年前的欺诈交易日志训练，这些日志的判断标准（比如当时重点查负债）可能和当前模型的标准（现在重点查征信）不一致，样本是固定的、与当前策略脱节的。

关键补充：与标注、数据真实性的无关性

与“标注”无关：标注是样本的目标结果属性（如“这笔交易是盗卡=1”），而On/Off-Policy是样本的生成方式属性。哪怕是无标注样本，只要由当前策略实时生成，就是On-Policy；哪怕是精准标注的样本，只要是固定离线数据，就是Off-Policy。
与“数据真实性”无关：On-Policy样本可以是模型生成的模拟数据（如大模型生成的风控场景样本），Off-Policy样本可以是真实场景日志。核心看是否由当前策略驱动生成，而非数据是否真实。

延伸：大模型训练

SFT是Off-Policy：用固定的人工标注数据训练，样本生成与当前模型策略无关（标注集确定后就不变），属于照着别人的思路学。
论文中的RL是On-Policy：用当前模型策略实时生成样本（比如风控模型生成新用户头3笔交易的响应），样本与当前策略同步，属于跟着自己的判断学。

5. 策略分布稳定的重要性

训练后策略分布大幅波动会导致业务使用风险。例如风控模型原本通过收入、负债判断用户风险，训练后变为收入、征信，可能导致大量历史低风险用户被误判为高风险。RL通过KL散度约束等方式控制这种波动，确保策略调整平稳。

二、表述错误的底层逻辑及纠正

1. 概念混淆：将Policy等同于标注

问题本质：混淆策略与标注的核心定义，两者是完全不同的机器学习概念。
正确逻辑：标注是样本的目标结果，比如盗卡交易=1、正常交易=0，是数据的属性；策略是模型的决策规则，比如月收入<5000且负债>20万→判定高风险，是模型的输出逻辑；on-policy的核心是样本由当前模型的决策策略实时生成，而非有标注，标注是样本的基础属性，与on/off policy无关。

2. RL标注难度的认知偏差

问题本质：误解RL标注/数据准备的核心难点，并非答案排序，而是策略权重定义、奖励函数设计等。
正确逻辑：RL的难度在于两方面，一是需要定义贴合业务的奖励函数，比如头3笔盗卡交易识别正确的奖励是普通交易的20倍；二是需要实时采样贴合当前策略的样本，而非单纯对标注答案排序。SFT的标注难度是获取固定的目标结果，而RL的标注/数据难度是量化样本的业务优先级和动态适配策略的样本生成。

3. SFT与RL效果差距的归因错误

问题本质：将SFT与RL的效果差距归因于标注工作量，忽视两者核心逻辑的本质差异。
正确逻辑：两者效果差距的核心是数据是否贴合当前策略分布。SFT用固定离线数据，即使增加标注工作量，也无法解决数据与模型策略偏差大导致的遗忘和分布波动。若要SFT逼近RL的抗遗忘效果，需通过Iterative-SFT等方案，每个epoch生成近似on-policy数据，而非单纯增加标注量，本质是调整数据属性，而非补齐标注工作量。

4. SFT抗遗忘方法的表述偏差

问题本质：将SFT抗遗忘的核心方法归结为参数限定，忽视分布约束的核心逻辑，且参数限定治标不治本。
正确逻辑：SFT抗遗忘的有效方法是控制数据分布和KL散度约束。控制数据分布可采用PSI筛选与旧数据分布接近的新数据；KL散度约束能控制新策略与旧策略的分布差异，而非单纯限定参数阈值。单纯限定参数会限制模型学习新任务的能力，导致新任务性能不足，正确思路是动态平衡，允许参数调整，但约束分布差异，而非静态冻结参数。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259