在大语言模型(LLM)后训练领域,强化学习(RL)与监督微调(SFT)的取舍始终是研究者关注的核心。前者如 RLHF(基于人类反馈的强化学习)、RLAIF(基于 AI 反馈的强化学习)能有效对齐模型与人类意图、激发推理能力(如 OpenAI o1、DeepSeek-R1),但存在难解释、调参复杂、计算成本高的问题;后者基于精选数据,训练稳定且无需改变预训练到微调的损失函数,部分研究(如 s1 模型)已证明其可提升 LLM 推理能力,却始终缺乏与 RL 目标的明确理论关联(Qin & Springenberg, 2025)。针对这一矛盾,Qin 和 Springenberg(2025)在最新研究中揭示了 SFT 的本质,并提出改进方法,为 LLM 与控制任务的模型优化提供了新方向。
一、核心突破:SFT 是稀疏奖励下 RL 目标的 “松散下界”
论文最关键的理论贡献,是明确了基于精选数据的 SFT 本质是稀疏奖励场景下强化学习目标的松散下界。这一关联的推导可概括为四个核心步骤(Qin & Springenberg, 2025):
RL 的核心目标:最大化期望累积奖励
强化学习的目标是优化政策参数θ,使轨迹的期望累积奖励最大,公式定义为:
J(θ) = 𝔼p(τ;θ)[R(τ)] = ∫ℬp(τ;θ) ⋅ R(τ) dτ
其中,p(τ;θ)是政策π(θ)生成轨迹τ的概率(LLM 中即 token 序列的自回归生成概率),R(τ)为轨迹奖励(如质量评分),ℬ是所有可能轨迹的集合。
用参考政策重写 RL 目标:重要性采样的桥梁作用
SFT 依赖参考政策πref(如人类标注或预训练模型)生成的精选数据,需通过重要性采样将 RL 目标重写为参考分布下的期望:
$$J(\theta) = \mathbb{E}_{\pi_{\text{ref}}(\tau)} \left[ \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \right] = \int_{\mathcal{B}} \pi_{\text{ref}}(\tau) \cdot \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \, d\tau$$
这里的$\frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$即重要性权重,用于在参考数据上估算目标政策的奖励。
不等式推导:SFT 成为 RL 的下界
利用数学不等式x ≥ 1 + log (x)(x > 0,等号仅当x = 1时成立),将$x = \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$代入并简化,可得 RL 目标的下界:
$ J() {{}()} + $
其中cst是与θ无关的常数,由参考政策和奖励函数决定。
稀疏奖励简化:SFT 目标的最终形式
精选数据对应 “稀疏二进制奖励”—— 仅高质量轨迹τ ∈ 𝒟+(𝒟+为高质量轨迹集合)有奖励(R(τ) = 1),低质量轨迹无奖励(R(τ) = 0),此时下界进一步简化为标准 SFT 目标:
$ J() c_{} _{^+} + $
这里cref是参考政策生成高质量轨迹的概率,𝔼τ ∈ 𝒟+[logp(τ;θ)]即 SFT 的最大似然目标函数。
值得注意的是,这一下界是 “松散” 的:随着目标政策与参考政策差距增大,下界与真实 RL 目标的偏差会逐渐扩大(Qin & Springenberg, 2025)。
二、改进方案:iw-SFT—— 用重要性加权收紧 RL 下界
为解决 SFT 下界松散的问题,论文提出重要性加权监督微调(iw-SFT),核心是引入辅助分布q(τ)(逐步逼近目标分布p(τ;θ)),优化更紧的 RL 下界(Qin & Springenberg, 2025)。
1. iw-SFT 的核心目标
iw-SFT 的目标公式为:
$$ \mathcal{J}_{\text{iw-SFT}}(\theta) = \mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \frac{q(\tau)}{\pi_{\text{ref}}(\tau)} \cdot \log p(\tau;\theta) \right] $$
其中,$\frac{q(\tau)}{\pi_{\text{ref}}(\tau)}$是新的重要性权重,通过辅助分布q(τ)的动态调整(如指数移动平均更新θq以逼近θ),使下界随训练逐步收紧。
2. 权重控制:避免方差爆炸
为防止权重极端值导致训练不稳定,论文提出两种控制策略:
- 逐步裁剪:将权重限制在[αmin,αmax](如 LLM 实验中设αmin = 0.2、αmax = 1.8);
- 轨迹级平滑:通过温度函数g(x) = k ⋅ x(k为超参数)压低权重波动(Qin & Springenberg, 2025)。
三、实验验证:iw-SFT 在 LLM 与控制任务中的表现
论文在两类任务中验证了 iw-SFT 的有效性,结果均优于标准 SFT,且可媲美先进 RL 算法(Qin & Springenberg, 2025):
1. LLM 推理任务:无需 “预算强制” 的 SOTA
基于 Qwen2.5-32B-Instruct 模型和 S1.1K 精选数据集(1K 条高质量数学推理轨迹),iw-SFT 在 AIME 2024 数学竞赛数据集上达到 66.7% 的准确率,较标准 SFT 提升约 10%;在 GPQA Diamond 推理任务中达 64.1%,且无需通过 “预算强制”(注入 “Wait” token 延长推理时间)即可实现峰值性能。
2. 连续控制任务:比肩先进 RL 算法
在 D4RL 基准的 locomotion 任务(如 halfcheetah、walker2d)中,iw-SFT 的质量评分变体(iw-SFT (Q))表现突出:在 walker2d 的 Medium Replay 数据集上达 75.8%,超越标准 SFT(58.8%)和 SFT (Q)(66.2%),性能比肩 IQL、TD3+BC 等主流离线 RL 算法。
四、意义与局限:为模型优化提供 “轻量方案”
iw-SFT 的价值在于实现了 “鱼与熊掌兼得”—— 既保留 SFT 的稳定性和易实现性,又具备 RL 对目标的精准优化能力,且通用性强(可跨 LLM 与控制任务)(Qin & Springenberg, 2025)。但研究仍有局限:仅在数学推理和连续控制等窄领域验证,部分任务性能未超越最优 RL 模型;同时,若结合对抗性数据精选,存在生成有害模型的伦理风险。
参考文献
Qin, C., & Springenberg, J. T. (2025). Supervised fine tuning on curated data is reinforcement learning (and can be improved) [Preprint]. arXiv. https://arxiv.org/pdf/2507.pdf