在大语言模型(LLM)后训练领域,强化学习(RL)与监督微调(SFT)的取舍始终是研究者关注的核心。前者如 RLHF(基于人类反馈的强化学习)、RLAIF(基于 AI 反馈的强化学习)能有效对齐模型与人类意图、激发推理能力(如 OpenAI o1、DeepSeek-R1),但存在难解释、调参复杂、计算成本高的问题;后者基于精选数据,训练稳定且无需改变预训练到微调的损失函数,部分研究(如 s1 模型)已证明其可提升 LLM 推理能力,却始终缺乏与 RL 目标的明确理论关联(Qin & Springenberg, 2025)。针对这一矛盾,Qin 和 Springenberg(2025)在最新研究中揭示了 SFT 的本质,并提出改进方法,为 LLM 与控制任务的模型优化提供了新方向。
一、核心突破:SFT 是稀疏奖励下 RL 目标的 “松散下界”
论文最关键的理论贡献,是明确了基于精选数据的 SFT 本质是稀疏奖励场景下强化学习目标的松散下界。这一关联的推导可概括为四个核心步骤(Qin & Springenberg, 2025):
-
RL 的核心目标:最大化期望累积奖励
强化学习的目标是优化政策参数$\theta$,使轨迹的期望累积奖励最大,公式定义为:
$$ J(\theta) = \mathbb{E}{p(\tau;\theta)} \left[ R(\tau) \right] = \int{\mathcal{B}} p(\tau;\theta) \cdot R(\tau) , d\tau $$
其中,$p(\tau;\theta)$是政策$\pi(\theta)$生成轨迹$\tau$的概率(LLM 中即 token 序列的自回归生成概率),$R(\tau)$为轨迹奖励(如质量评分),$\mathcal{B}$是所有可能轨迹的集合。
-
用参考政策重写 RL 目标:重要性采样的桥梁作用
SFT 依赖参考政策$\pi_{\text{ref}}$(如人类标注或预训练模型)生成的精选数据,需通过重要性采样将 RL 目标重写为参考分布下的期望:
$$J(\theta) = \mathbb{E}{\pi{\text{ref}}(\tau)} \left[ \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \right] = \int_{\mathcal{B}} \pi_{\text{ref}}(\tau) \cdot \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) , d\tau$$
这里的$\frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$即重要性权重,用于在参考数据上估算目标政策的奖励。
-
不等式推导:SFT 成为 RL 的下界
利用数学:不等式$x \geq 1 + \log(x)$($x>0$,等号仅当$x=1$时成立),将$x = \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}$代入并简化,可得 RL 目标的下界:
$ J(\theta) \geq \mathbb{E}{\pi{\text{ref}}(\tau)} \left[ R(\tau) \cdot \log p(\tau;\theta) \right] + \text{cst} $
其中$\text{cst}$是与$\theta$无关的常数,由参考政策和奖励函数决定。
-
稀疏奖励简化:SFT 目标的最终形式
精选数据对应 “稀疏二进制奖励”—— 仅高质量轨迹$\tau \in \mathcal{D}^+$($\mathcal{D}^+$为高质量轨迹集合)有奖励($R(\tau)=1$),低质量轨迹无奖励($R(\tau)=0$),此时下界进一步简化为标准 SFT 目标:
$ J(\theta) \geq c_{\text{ref}} \cdot \mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \log p(\tau;\theta) \right] + \text{cst} $
这里$c_{\text{ref}}$是参考政策生成高质量轨迹的概率,$\mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \log p(\tau;\theta) \right]$即 SFT 的最大似然目标函数。
值得注意的是,这一下界是 “松散” 的:随着目标政策与参考政策差距增大,下界与真实 RL 目标的偏差会逐渐扩大(Qin & Springenberg, 2025)。
二、改进方案:iw-SFT—— 用重要性加权收紧 RL 下界
为解决 SFT 下界松散的问题,论文提出重要性加权监督微调(iw-SFT),核心是引入辅助分布$q(\tau)$(逐步逼近目标分布$p(\tau;\theta)$),优化更紧的 RL 下界(Qin & Springenberg, 2025)。
1. iw-SFT 的核心目标
iw-SFT 的目标公式为:
$$ \mathcal{J}{\text{iw-SFT}}(\theta) = \mathbb{E}{\tau \in \mathcal{D}^+} \left[ \frac{q(\tau)}{\pi_{\text{ref}}(\tau)} \cdot \log p(\tau;\theta) \right] $$
其中,$\frac{q(\tau)}{\pi_{\text{ref}}(\tau)}$是新的重要性权重,通过辅助分布$q(\tau)$的动态调整(如指数移动平均更新$\theta_q$以逼近$\theta$),使下界随训练逐步收紧。
2. 权重控制:避免方差爆炸
为防止权重极端值导致训练不稳定,论文提出两种控制策略:
- 逐步裁剪:将权重限制在$[\alpha_{\text{min}}, \alpha_{\text{max}}]$(如 LLM 实验中设$\alpha_{\text{min}}=0.2$、$\alpha_{\text{max}}=1.8$);
- 轨迹级平滑:通过温度函数$g(x)=k \cdot x$($k$为超参数)压低权重波动(Qin & Springenberg, 2025)。
三、实验验证:iw-SFT 在 LLM 与控制任务中的表现
论文在两类任务中验证了 iw-SFT 的有效性,结果均优于标准 SFT,且可媲美先进 RL 算法(Qin & Springenberg, 2025):
1. LLM 推理任务:无需 “预算强制” 的 SOTA
基于 Qwen2.5-32B-Instruct 模型和 S1.1K 精选数据集(1K 条高质量数学:推理轨迹),iw-SFT 在 AIME 2024 数学:竞赛数据集上达到 66.7% 的准确率,较标准 SFT 提升约 10%;在 GPQA Diamond 推理任务中达 64.1%,且无需通过 “预算强制”(注入 “Wait” token 延长推理时间)即可实现峰值性能。
2. 连续控制任务:比肩先进 RL 算法
在 D4RL 基准的 locomotion 任务(如 halfcheetah、walker2d)中,iw-SFT 的质量评分变体(iw-SFT (Q))表现突出:在 walker2d 的 Medium Replay 数据集上达 75.8%,超越标准 SFT(58.8%)和 SFT (Q)(66.2%),性能比肩 IQL、TD3+BC 等主流离线 RL 算法。
四、意义与局限:为模型优化提供 “轻量方案”
iw-SFT 的价值在于实现了 “鱼与熊掌兼得”—— 既保留 SFT 的稳定性和易实现性,又具备 RL 对目标的精准优化能力,且通用性强(可跨 LLM 与控制任务)(Qin & Springenberg, 2025)。但研究仍有局限:仅在数学:推理和连续控制等窄领域验证,部分任务性能未超越最优 RL 模型;同时,若结合对抗性数据精选,存在生成有害模型的伦理风险。
参考文献
Qin, C., & Springenberg, J. T. (2025). Supervised fine tuning on curated data is reinforcement learning (and can be improved) [Preprint]. arXiv. https://arxiv.org/pdf/2507.pdf