2 min read

LLM:SFT 与 RL 的关系

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在大语言模型(LLM)后训练领域,强化学习(RL)与监督微调(SFT)的取舍始终是研究者关注的核心。前者如 RLHF(基于人类反馈的强化学习)、RLAIF(基于 AI 反馈的强化学习)能有效对齐模型与人类意图、激发推理能力(如 OpenAI o1、DeepSeek-R1),但存在难解释、调参复杂、计算成本高的问题;后者基于精选数据,训练稳定且无需改变预训练到微调的损失函数,部分研究(如 s1 模型)已证明其可提升 LLM 推理能力,却始终缺乏与 RL 目标的明确理论关联(Qin & Springenberg, 2025)。针对这一矛盾,Qin 和 Springenberg(2025)在最新研究中揭示了 SFT 的本质,并提出改进方法,为 LLM 与控制任务的模型优化提供了新方向。

一、核心突破:SFT 是稀疏奖励下 RL 目标的 “松散下界”

论文最关键的理论贡献,是明确了基于精选数据的 SFT 本质是稀疏奖励场景下强化学习目标的松散下界。这一关联的推导可概括为四个核心步骤(Qin & Springenberg, 2025):

  1. RL 的核心目标:最大化期望累积奖励

    强化学习的目标是优化政策参数\(\theta\),使轨迹的期望累积奖励最大,公式定义为:

\[ J(\theta) = \mathbb{E}_{p(\tau;\theta)} \left[ R(\tau) \right] = \int_{\mathcal{B}} p(\tau;\theta) \cdot R(\tau) \, d\tau \]

其中,\(p(\tau;\theta)\)是政策\(\pi(\theta)\)生成轨迹\(\tau\)的概率(LLM 中即 token 序列的自回归生成概率),\(R(\tau)\)为轨迹奖励(如质量评分),\(\mathcal{B}\)是所有可能轨迹的集合。

  1. 用参考政策重写 RL 目标:重要性采样的桥梁作用

    SFT 依赖参考政策\(\pi_{\text{ref}}\)(如人类标注或预训练模型)生成的精选数据,需通过重要性采样将 RL 目标重写为参考分布下的期望:

\[J(\theta) = \mathbb{E}_{\pi_{\text{ref}}(\tau)} \left[ \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \right] = \int_{\mathcal{B}} \pi_{\text{ref}}(\tau) \cdot \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \, d\tau\]

这里的\(\frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}\)即重要性权重,用于在参考数据上估算目标政策的奖励。

  1. 不等式推导:SFT 成为 RL 的下界

    利用数学不等式\(x \geq 1 + \log(x)\)\(x>0\),等号仅当\(x=1\)时成立),将\(x = \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}\)代入并简化,可得 RL 目标的下界:

$ J() {{}()} + $

其中\(\text{cst}\)是与\(\theta\)无关的常数,由参考政策和奖励函数决定。

  1. 稀疏奖励简化:SFT 目标的最终形式

    精选数据对应 “稀疏二进制奖励”—— 仅高质量轨迹\(\tau \in \mathcal{D}^+\)\(\mathcal{D}^+\)为高质量轨迹集合)有奖励(\(R(\tau)=1\)),低质量轨迹无奖励(\(R(\tau)=0\)),此时下界进一步简化为标准 SFT 目标:

$ J() c_{} _{^+} + $

这里\(c_{\text{ref}}\)是参考政策生成高质量轨迹的概率,\(\mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \log p(\tau;\theta) \right]\)即 SFT 的最大似然目标函数。

值得注意的是,这一下界是 “松散” 的:随着目标政策与参考政策差距增大,下界与真实 RL 目标的偏差会逐渐扩大(Qin & Springenberg, 2025)。

二、改进方案:iw-SFT—— 用重要性加权收紧 RL 下界

为解决 SFT 下界松散的问题,论文提出重要性加权监督微调(iw-SFT),核心是引入辅助分布\(q(\tau)\)(逐步逼近目标分布\(p(\tau;\theta)\)),优化更紧的 RL 下界(Qin & Springenberg, 2025)。

1. iw-SFT 的核心目标

iw-SFT 的目标公式为:

\[ \mathcal{J}_{\text{iw-SFT}}(\theta) = \mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \frac{q(\tau)}{\pi_{\text{ref}}(\tau)} \cdot \log p(\tau;\theta) \right] \]

其中,\(\frac{q(\tau)}{\pi_{\text{ref}}(\tau)}\)是新的重要性权重,通过辅助分布\(q(\tau)\)的动态调整(如指数移动平均更新\(\theta_q\)以逼近\(\theta\)),使下界随训练逐步收紧。

2. 权重控制:避免方差爆炸

为防止权重极端值导致训练不稳定,论文提出两种控制策略:

  • 逐步裁剪:将权重限制在\([\alpha_{\text{min}}, \alpha_{\text{max}}]\)(如 LLM 实验中设\(\alpha_{\text{min}}=0.2\)\(\alpha_{\text{max}}=1.8\));
  • 轨迹级平滑:通过温度函数\(g(x)=k \cdot x\)\(k\)为超参数)压低权重波动(Qin & Springenberg, 2025)。

三、实验验证:iw-SFT 在 LLM 与控制任务中的表现

论文在两类任务中验证了 iw-SFT 的有效性,结果均优于标准 SFT,且可媲美先进 RL 算法(Qin & Springenberg, 2025):

1. LLM 推理任务:无需 “预算强制” 的 SOTA

基于 Qwen2.5-32B-Instruct 模型和 S1.1K 精选数据集(1K 条高质量数学推理轨迹),iw-SFT 在 AIME 2024 数学竞赛数据集上达到 66.7% 的准确率,较标准 SFT 提升约 10%;在 GPQA Diamond 推理任务中达 64.1%,且无需通过 “预算强制”(注入 “Wait” token 延长推理时间)即可实现峰值性能。

2. 连续控制任务:比肩先进 RL 算法

在 D4RL 基准的 locomotion 任务(如 halfcheetah、walker2d)中,iw-SFT 的质量评分变体(iw-SFT (Q))表现突出:在 walker2d 的 Medium Replay 数据集上达 75.8%,超越标准 SFT(58.8%)和 SFT (Q)(66.2%),性能比肩 IQL、TD3+BC 等主流离线 RL 算法。

四、意义与局限:为模型优化提供 “轻量方案”

iw-SFT 的价值在于实现了 “鱼与熊掌兼得”—— 既保留 SFT 的稳定性和易实现性,又具备 RL 对目标的精准优化能力,且通用性强(可跨 LLM 与控制任务)(Qin & Springenberg, 2025)。但研究仍有局限:仅在数学推理和连续控制等窄领域验证,部分任务性能未超越最优 RL 模型;同时,若结合对抗性数据精选,存在生成有害模型的伦理风险。

参考文献

Qin, C., & Springenberg, J. T. (2025). Supervised fine tuning on curated data is reinforcement learning (and can be improved) [Preprint]. arXiv. https://arxiv.org/pdf/2507.pdf

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03