3 min read

LLM：SFT 与 RL 的关系（理论修正与实践补充）

2025/07/30

在《LLM：SFT 与 RL 的关系》博客发布后，围绕 “RL 奖励信号如何构建”“SFT 能否逼近 RL” 展开探讨。前期对部分理论的简化阐释存在疏漏，易在实践中引发认知偏差。本文基于 RLHF、iw-SFT 等大模型微调经典理论（Qin & Springenberg, 2025），系统解析 RL 奖励信号的构建机制，明确 SFT 逼近 RL 的必要条件，旨在为技术实现提供精准理论支撑。

一、重新理解 RL：奖励信号构建的完整逻辑，远不止 “两两配对标注”

将 RL 标注逻辑窄化为 “必须两两配对（1 个样本 2 次标注）”，这与 RL 的理论框架存在偏差。事实上，RL 在大模型微调中的核心是 “通过可量化的奖励信号优化政策”，其奖励构建需围绕 “来源灵活性”“技术完整性” 展开，具体可拆解为两大维度：

1. 奖励信号的 3 类核心来源：不止 “两两比较”，更有多元选择

RL 的奖励信号无需绑定 “两两配对”，而是根据任务目标选择适配的标注形式，三类常见来源覆盖了从简单到复杂的场景：

单轨迹绝对评分：直接对单条模型输出打 “绝对分数”，无需对比。例如训练客服对话模型时，标注者给 “精准解决问题 + 语气友好” 的回答打 9 分，给 “未解决核心诉求” 的回答打 3 分。这种方式与 SFT 的 “单一答案标注” 形式相似，但差异在于：SFT 用 “正确 / 错误” 指引模型学习 “标准答案”，RL 用 “分数高低” 引导模型学习 “更符合偏好的答案”。
多轨迹排序：对同一问题的 3-5 条回答做 “全排序”，再转化为奖励。比如 “如何煮米饭” 的 3 种解法，标注者按 “步骤简洁度 + 成功率” 排序为 “解法 A＞解法 B＞解法 C”，通过 Borda 计数法将排序转化为 “3 分、2 分、1 分” 的奖励。Borda 计数法是一种基于排序的投票计票方法，由法国数学家让 - 查理斯・波达（Jean-Charles de Borda）在 18 世纪提出。在多轨迹排序场景下，其核心逻辑是：设有个回答，排名第 1 的回答获得分，排名第 2 的回答获得分，以此类推，排名最后的回答获得 1 分，最终以各回答的累计得分作为量化奖励。相比 “两两比较”，这种方式能减少标注工作量，同时保留更丰富的质量梯度。
两两比较：仅为 RL 奖励来源的 “子集”。例如对比 “北平是中国首都” 与 “北京是中国首都”，标注 “北京更优” 并转化为 “1 分、0 分” 的奖励。适合样本量少、需精准区分细微差异的场景，但绝非 RL 的唯一选择。

2. 奖励构建的 2 个关键技术步骤：从 “主观判断” 到 “稳定优化” 的桥梁

标注获取的 “评分、排序、比较” 只是原始信号，要转化为 RL 可高效优化的奖励，还需两步核心技术处理 —— 这也是此前对话完全遗漏的环节：

信号量化：将标注者的主观判断转化为数值奖励。比如 “非常好” 对应 10 分、“一般” 对应 5 分、“差” 对应 0 分，或把 “排序结果” 转化为连续概率值（如解法 A 的胜率为 80%），让模型能通过数值差异感知偏好。
奖励 Shaping：解决 “奖励方差过大、训练不稳定” 的问题。常见操作包括：①奖励裁剪（将极端分数 [0,10] 限制为 [1,9]，避免模型过拟合极端样本）；②基线减去（用所有回答的平均分数做基线，让奖励围绕 0 波动，加速梯度下降）；③折扣因子（对长对话的后续步骤加 0.95 折扣，强调初始决策的重要性）。缺少这一步，RL 训练易出现 “震荡不收敛”，甚至效果不如 SFT。

二、SFT 逼近 RL 的真相：3 个前提 + 2 个技术，而非 “调整样本配比”

根据 iw-SFT（重要性加权 SFT）论文（Qin & Springenberg, 2025），SFT 要实现 “逼近 RL 效果”，需满足严格前提，并通过特定技术优化，绝非简单调整样本权重就能实现。

1. 3 个关键条件：SFT 逼近 RL 的必备要素

SFT 仅在特定场景下具备逼近 RL 的可能，这 3 个前提缺一不可：

前提 1：数据与 RL 目标偏好对齐

SFT 的标注数据（如 “高置信度答案”）必须与 RL 的奖励目标一致。例如 RL 的目标是 “生成简洁且准确的回答”，若 SFT 数据是 “正确但冗余的回答”（如 “北京是中国首都，位于亚洲东部，是直辖市”），即便调整置信度配比，也无法逼近 RL—— 因为数据本身未对齐 RL 的偏好。
前提 2：数据包含细粒度质量梯度

仅标注 “高 / 低置信度” 不够，需更细的质量分层（如 “90% 置信度＞70% 置信度＞50% 置信度”）。这是 SFT 模拟 RL “偏好梯度” 的基础：梯度粒度越细，SFT 越能感知 “哪种答案更优”，逼近 RL 的效果越好。
前提 3：任务场景为 “简单单轮任务”

SFT 仅适用于 “单轮对话、短文本生成”（如问答、关键词提取）。若任务是 “多轮对话、复杂逻辑推理”（如数学证明、代码调试），RL 能通过 “轨迹级奖励”（对多轮推理的每一步打分）优化长序列决策，而 SFT 仅能优化单条样本的输出，无法模拟多步决策的关联性，此时 SFT 再优化也无法逼近 RL。

2. 2 个核心技术：SFT 收紧 RL 下界的 “关键手段”

满足前提后，需通过 iw-SFT 的核心技术，让 SFT 逐步逼近 RL 效果，这两步是此前遗漏的理论核心：

技术 1：重要性加权（Importance Weighting）

在 SFT 的目标函数中，引入 RL 的 “参考政策 π_ref”（如初始 SFT 模型的输出分布）和 “辅助分布 q”（动态逼近 RL 的目标政策 p），计算样本权重 w = q (τ)/π_ref (τ)。本质是让 SFT “重点学习 RL 中奖励更高的样本”—— 比如 RL 中 “北京是中国首都” 的奖励更高，对应 q (τ) 更大，SFT 会给该样本更高的 w，实现 “向 RL 偏好对齐”。这与 “固定置信度配比” 完全不同：权重 w 是动态跟随 RL 目标调整的，而非预设的固定值。
技术 2：权重控制与方差抑制

仅加权会导致 “高权重样本主导训练，方差爆炸”，需配套两个操作：①权重裁剪（将极端权重 w 限制在 [0.5,2]，避免模型过拟合高权重样本）；②分布平滑（混合 5% 的参考政策 π_ref 样本，确保 SFT 的训练分布不偏离初始模型太远）。缺少这一步，SFT 训练易出现 “过拟合高奖励样本，泛化性下降” 的问题。

3. 效果边界：SFT “逼近” 而非 “等同”，存在理论上限

需明确的是，SFT 始终是 RL 目标的 “松散下界”，即便优化到位，也存在两点局限：

效果上限由 “辅助分布 q 与目标政策 p 的差距” 决定：若 q 无法完全逼近 p（如复杂任务中 p 的分布太灵活，q 难以捕捉），SFT 的效果会低于 RL；
无法处理 “轨迹级奖励”：如前所述，多轮任务中 RL 的优势是 “优化整体轨迹的累积奖励”，而 SFT 仅能优化单条样本，这一差异是 SFT 无法跨越的理论鸿沟。

三、实践建议：如何根据场景选择 SFT 或 RL？

结合上述理论修正，提供 3 点具体落地建议：

简单单轮任务（如问答、客服）：优先采用 SFT + 重要性加权方案。在满足 “数据对齐偏好 + 细粒度梯度” 条件下，通过 iw-SFT 技术优化，可将标注成本降低至原来的 50%，同时实现 RL 80%-90% 的效果；
复杂多轮或推理任务（如代码编写、数学解题）：推荐直接使用 RL 方法。由于 SFT 难以实现轨迹级优化，RL 的优势在此类场景中更为显著。可先通过 SFT 构建基础模型，再利用少量样本进行 RL 微调，以此平衡成本与优化效果；
标注资源有限时：RL 任务建议选择 “单轨迹绝对评分” 方式。相较于 “两两比较” 法，该方式能减少 50% 的标注工作量，配合奖励 Shaping 策略，可在资源受限情况下保障优化效果。

结语

在技术讨论中，采用 “简化理论” 虽能降低理解难度，但会带来实践应用时的偏差风险。RL 的奖励构建涉及复杂的多因素交互，并非简单的 “两两配对”；SFT 逼近 RL 的过程，也远超 “调整样本配比” 的常规操作范畴。只有精确掌握理论细节与适用边界，才能在实际落地过程中减少不必要的试错成本。

参考文献

Qin, C., & Springenberg, J. T. (2025). Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved). arXiv preprint arXiv:2507.12856v2. Retrieved from https://arxiv.org/pdf/2507.12856v2.pdf