2 min read

LLM：SFT 与 RL 的关系

2025/07/29

在大语言模型（LLM）后训练领域，强化学习（RL）与监督微调（SFT）的取舍始终是研究者关注的核心。前者如 RLHF（基于人类反馈的强化学习）、RLAIF（基于 AI 反馈的强化学习）能有效对齐模型与人类意图、激发推理能力（如 OpenAI o1、DeepSeek-R1），但存在难解释、调参复杂、计算成本高的问题；后者基于精选数据，训练稳定且无需改变预训练到微调的损失函数，部分研究（如 s1 模型）已证明其可提升 LLM 推理能力，却始终缺乏与 RL 目标的明确理论关联（Qin & Springenberg, 2025）。针对这一矛盾，Qin 和 Springenberg（2025）在最新研究中揭示了 SFT 的本质，并提出改进方法，为 LLM 与控制任务的模型优化提供了新方向。

一、核心突破：SFT 是稀疏奖励下 RL 目标的 “松散下界”

论文最关键的理论贡献，是明确了基于精选数据的 SFT 本质是稀疏奖励场景下强化学习目标的松散下界。这一关联的推导可概括为四个核心步骤（Qin & Springenberg, 2025）：

RL 的核心目标：最大化期望累积奖励

强化学习的目标是优化政策参数$\theta$，使轨迹的期望累积奖励最大，公式定义为：

\[ J(\theta) = \mathbb{E}_{p(\tau;\theta)} \left[ R(\tau) \right] = \int_{\mathcal{B}} p(\tau;\theta) \cdot R(\tau) \, d\tau \]

其中，$p(\tau;\theta)$是政策$\pi(\theta)$生成轨迹$\tau$的概率（LLM 中即 token 序列的自回归生成概率），$R(\tau)$为轨迹奖励（如质量评分），$\mathcal{B}$是所有可能轨迹的集合。

用参考政策重写 RL 目标：重要性采样的桥梁作用

SFT 依赖参考政策$\pi_{\text{ref}}$（如人类标注或预训练模型）生成的精选数据，需通过重要性采样将 RL 目标重写为参考分布下的期望：

\[J(\theta) = \mathbb{E}_{\pi_{\text{ref}}(\tau)} \left[ \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \right] = \int_{\mathcal{B}} \pi_{\text{ref}}(\tau) \cdot \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \, d\tau\]

这里的$\frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$即重要性权重，用于在参考数据上估算目标政策的奖励。

不等式推导：SFT 成为 RL 的下界

利用数学不等式$x \geq 1 + \log(x)$（$x>0$，等号仅当$x=1$时成立），将$x = \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$代入并简化，可得 RL 目标的下界：

$ J() {{}()} + $

其中$\text{cst}$是与$\theta$无关的常数，由参考政策和奖励函数决定。

稀疏奖励简化：SFT 目标的最终形式

精选数据对应 “稀疏二进制奖励”—— 仅高质量轨迹$\tau \in \mathcal{D}^+$（$\mathcal{D}^+$为高质量轨迹集合）有奖励（$R(\tau)=1$），低质量轨迹无奖励（$R(\tau)=0$），此时下界进一步简化为标准 SFT 目标：

$ J() c_{} _{^+} + $

这里$c_{\text{ref}}$是参考政策生成高质量轨迹的概率，$\mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \log p(\tau;\theta) \right]$即 SFT 的最大似然目标函数。

值得注意的是，这一下界是 “松散” 的：随着目标政策与参考政策差距增大，下界与真实 RL 目标的偏差会逐渐扩大（Qin & Springenberg, 2025）。

二、改进方案：iw-SFT—— 用重要性加权收紧 RL 下界

为解决 SFT 下界松散的问题，论文提出重要性加权监督微调（iw-SFT），核心是引入辅助分布$q(\tau)$（逐步逼近目标分布$p(\tau;\theta)$），优化更紧的 RL 下界（Qin & Springenberg, 2025）。

1. iw-SFT 的核心目标

iw-SFT 的目标公式为：

\[ \mathcal{J}_{\text{iw-SFT}}(\theta) = \mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \frac{q(\tau)}{\pi_{\text{ref}}(\tau)} \cdot \log p(\tau;\theta) \right] \]

其中，$\frac{q(\tau)}{\pi_{\text{ref}}(\tau)}$是新的重要性权重，通过辅助分布$q(\tau)$的动态调整（如指数移动平均更新$\theta_q$以逼近$\theta$），使下界随训练逐步收紧。

2. 权重控制：避免方差爆炸

为防止权重极端值导致训练不稳定，论文提出两种控制策略：

逐步裁剪：将权重限制在$[\alpha_{\text{min}}, \alpha_{\text{max}}]$（如 LLM 实验中设$\alpha_{\text{min}}=0.2$、$\alpha_{\text{max}}=1.8$）；
轨迹级平滑：通过温度函数$g(x)=k \cdot x$（$k$为超参数）压低权重波动（Qin & Springenberg, 2025）。

三、实验验证：iw-SFT 在 LLM 与控制任务中的表现

论文在两类任务中验证了 iw-SFT 的有效性，结果均优于标准 SFT，且可媲美先进 RL 算法（Qin & Springenberg, 2025）：

1. LLM 推理任务：无需 “预算强制” 的 SOTA

基于 Qwen2.5-32B-Instruct 模型和 S1.1K 精选数据集（1K 条高质量数学推理轨迹），iw-SFT 在 AIME 2024 数学竞赛数据集上达到 66.7% 的准确率，较标准 SFT 提升约 10%；在 GPQA Diamond 推理任务中达 64.1%，且无需通过 “预算强制”（注入 “Wait” token 延长推理时间）即可实现峰值性能。

2. 连续控制任务：比肩先进 RL 算法

在 D4RL 基准的 locomotion 任务（如 halfcheetah、walker2d）中，iw-SFT 的质量评分变体（iw-SFT (Q)）表现突出：在 walker2d 的 Medium Replay 数据集上达 75.8%，超越标准 SFT（58.8%）和 SFT (Q)（66.2%），性能比肩 IQL、TD3+BC 等主流离线 RL 算法。

四、意义与局限：为模型优化提供 “轻量方案”

iw-SFT 的价值在于实现了 “鱼与熊掌兼得”—— 既保留 SFT 的稳定性和易实现性，又具备 RL 对目标的精准优化能力，且通用性强（可跨 LLM 与控制任务）（Qin & Springenberg, 2025）。但研究仍有局限：仅在数学推理和连续控制等窄领域验证，部分任务性能未超越最优 RL 模型；同时，若结合对抗性数据精选，存在生成有害模型的伦理风险。

参考文献

Qin, C., & Springenberg, J. T. (2025). Supervised fine tuning on curated data is reinforcement learning (and can be improved) [Preprint]. arXiv. https://arxiv.org/pdf/2507.pdf