在大语言模型(LLM)后训练领域,强化学习(RL)与监督微调(SFT)的取舍始终是研究者关注的核心。前者如 RLHF(基于人类反馈的强化学习)、RLAIF(基于 AI 反馈的强化学习)能有效对齐模型与人类意图、激发推理能力(如 OpenAI o1、DeepSeek-R1),但存在难解释、调参复杂、计算成本高的问题;后者基于精选数据,训练稳定且无需改变预训练到微调的损失函数,部分研究(如 s1 模型)已证明其可提升 LLM 推理能力,却始终缺乏与 RL 目标的明确理论关联(Qin & Springenberg, 2025)。针对这一矛盾,Qin 和 Springenberg(2025)在最新研究中揭示了 SFT 的本质,并提出改进方法,为 LLM 与控制任务的模型优化提供了新方向。
一、核心突破:SFT 是稀疏奖励下 RL 目标的 “松散下界”
论文最关键的理论贡献,是明确了基于精选数据的 SFT 本质是稀疏奖励场景下强化学习目标的松散下界。这一关联的推导可概括为四个核心步骤(Qin & Springenberg, 2025):
RL 的核心目标:最大化期望累积奖励
强化学习的目标是优化政策参数\(\theta\),使轨迹的期望累积奖励最大,公式定义为:
\[ J(\theta) = \mathbb{E}_{p(\tau;\theta)} \left[ R(\tau) \right] = \int_{\mathcal{B}} p(\tau;\theta) \cdot R(\tau) \, d\tau \]
其中,\(p(\tau;\theta)\)是政策\(\pi(\theta)\)生成轨迹\(\tau\)的概率(LLM 中即 token 序列的自回归生成概率),\(R(\tau)\)为轨迹奖励(如质量评分),\(\mathcal{B}\)是所有可能轨迹的集合。
用参考政策重写 RL 目标:重要性采样的桥梁作用
SFT 依赖参考政策\(\pi_{\text{ref}}\)(如人类标注或预训练模型)生成的精选数据,需通过重要性采样将 RL 目标重写为参考分布下的期望:
\[J(\theta) = \mathbb{E}_{\pi_{\text{ref}}(\tau)} \left[ \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \right] = \int_{\mathcal{B}} \pi_{\text{ref}}(\tau) \cdot \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)} \cdot R(\tau) \, d\tau\]
这里的\(\frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}\)即重要性权重,用于在参考数据上估算目标政策的奖励。
不等式推导:SFT 成为 RL 的下界
利用数学不等式\(x \geq 1 + \log(x)\)(\(x>0\),等号仅当\(x=1\)时成立),将\(x = \frac{p(\tau;\theta)}{\pi_{\text{ref}}(\tau)}\)代入并简化,可得 RL 目标的下界:
$ J() {{}()} + $
其中\(\text{cst}\)是与\(\theta\)无关的常数,由参考政策和奖励函数决定。
稀疏奖励简化:SFT 目标的最终形式
精选数据对应 “稀疏二进制奖励”—— 仅高质量轨迹\(\tau \in \mathcal{D}^+\)(\(\mathcal{D}^+\)为高质量轨迹集合)有奖励(\(R(\tau)=1\)),低质量轨迹无奖励(\(R(\tau)=0\)),此时下界进一步简化为标准 SFT 目标:
$ J() c_{} _{^+} + $
这里\(c_{\text{ref}}\)是参考政策生成高质量轨迹的概率,\(\mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \log p(\tau;\theta) \right]\)即 SFT 的最大似然目标函数。
值得注意的是,这一下界是 “松散” 的:随着目标政策与参考政策差距增大,下界与真实 RL 目标的偏差会逐渐扩大(Qin & Springenberg, 2025)。
二、改进方案:iw-SFT—— 用重要性加权收紧 RL 下界
为解决 SFT 下界松散的问题,论文提出重要性加权监督微调(iw-SFT),核心是引入辅助分布\(q(\tau)\)(逐步逼近目标分布\(p(\tau;\theta)\)),优化更紧的 RL 下界(Qin & Springenberg, 2025)。
1. iw-SFT 的核心目标
iw-SFT 的目标公式为:
\[ \mathcal{J}_{\text{iw-SFT}}(\theta) = \mathbb{E}_{\tau \in \mathcal{D}^+} \left[ \frac{q(\tau)}{\pi_{\text{ref}}(\tau)} \cdot \log p(\tau;\theta) \right] \]
其中,\(\frac{q(\tau)}{\pi_{\text{ref}}(\tau)}\)是新的重要性权重,通过辅助分布\(q(\tau)\)的动态调整(如指数移动平均更新\(\theta_q\)以逼近\(\theta\)),使下界随训练逐步收紧。
2. 权重控制:避免方差爆炸
为防止权重极端值导致训练不稳定,论文提出两种控制策略:
- 逐步裁剪:将权重限制在\([\alpha_{\text{min}}, \alpha_{\text{max}}]\)(如 LLM 实验中设\(\alpha_{\text{min}}=0.2\)、\(\alpha_{\text{max}}=1.8\));
- 轨迹级平滑:通过温度函数\(g(x)=k \cdot x\)(\(k\)为超参数)压低权重波动(Qin & Springenberg, 2025)。
三、实验验证:iw-SFT 在 LLM 与控制任务中的表现
论文在两类任务中验证了 iw-SFT 的有效性,结果均优于标准 SFT,且可媲美先进 RL 算法(Qin & Springenberg, 2025):
1. LLM 推理任务:无需 “预算强制” 的 SOTA
基于 Qwen2.5-32B-Instruct 模型和 S1.1K 精选数据集(1K 条高质量数学推理轨迹),iw-SFT 在 AIME 2024 数学竞赛数据集上达到 66.7% 的准确率,较标准 SFT 提升约 10%;在 GPQA Diamond 推理任务中达 64.1%,且无需通过 “预算强制”(注入 “Wait” token 延长推理时间)即可实现峰值性能。
2. 连续控制任务:比肩先进 RL 算法
在 D4RL 基准的 locomotion 任务(如 halfcheetah、walker2d)中,iw-SFT 的质量评分变体(iw-SFT (Q))表现突出:在 walker2d 的 Medium Replay 数据集上达 75.8%,超越标准 SFT(58.8%)和 SFT (Q)(66.2%),性能比肩 IQL、TD3+BC 等主流离线 RL 算法。
四、意义与局限:为模型优化提供 “轻量方案”
iw-SFT 的价值在于实现了 “鱼与熊掌兼得”—— 既保留 SFT 的稳定性和易实现性,又具备 RL 对目标的精准优化能力,且通用性强(可跨 LLM 与控制任务)(Qin & Springenberg, 2025)。但研究仍有局限:仅在数学推理和连续控制等窄领域验证,部分任务性能未超越最优 RL 模型;同时,若结合对抗性数据精选,存在生成有害模型的伦理风险。
参考文献
Qin, C., & Springenberg, J. T. (2025). Supervised fine tuning on curated data is reinforcement learning (and can be improved) [Preprint]. arXiv. https://arxiv.org/pdf/2507.pdf