在《LLM:SFT 与 RL 的关系》博客发布后,围绕 “RL 奖励信号如何构建”“SFT 能否逼近 RL” 展开探讨。前期对部分理论的简化阐释存在疏漏,易在实践中引发认知偏差。本文基于 RLHF、iw-SFT 等大模型微调经典理论(Qin & Springenberg, 2025),系统解析 RL 奖励信号的构建机制,明确 SFT 逼近 RL 的必要条件,旨在为技术实现提供精准理论支撑。
一、重新理解 RL:奖励信号构建的完整逻辑,远不止 “两两配对标注”
将 RL 标注逻辑窄化为 “必须两两配对(1 个样本 2 次标注)”,这与 RL 的理论框架存在偏差。事实上,RL 在大模型微调中的核心是 “通过可量化的奖励信号优化政策”,其奖励构建需围绕 “来源灵活性”“技术完整性” 展开,具体可拆解为两大维度:
1. 奖励信号的 3 类核心来源:不止 “两两比较”,更有多元选择
RL 的奖励信号无需绑定 “两两配对”,而是根据任务目标选择适配的标注形式,三类常见来源覆盖了从简单到复杂的场景:
单轨迹绝对评分:直接对单条模型输出打 “绝对分数”,无需对比。例如训练客服对话模型时,标注者给 “精准解决问题 + 语气友好” 的回答打 9 分,给 “未解决核心诉求” 的回答打 3 分。这种方式与 SFT 的 “单一答案标注” 形式相似,但差异在于:SFT 用 “正确 / 错误” 指引模型学习 “标准答案”,RL 用 “分数高低” 引导模型学习 “更符合偏好的答案”。
多轨迹排序:对同一问题的 3-5 条回答做 “全排序”,再转化为奖励。比如 “如何煮米饭” 的 3 种解法,标注者按 “步骤简洁度 + 成功率” 排序为 “解法 A>解法 B>解法 C”,通过 Borda 计数法将排序转化为 “3 分、2 分、1 分” 的奖励。Borda 计数法是一种基于排序的投票计票方法,由法国数学家让 - 查理斯・波达(Jean-Charles de Borda)在 18 世纪提出。在多轨迹排序场景下,其核心逻辑是:设有 个回答,排名第 1 的回答获得 分,排名第 2 的回答获得 分,以此类推,排名最后的回答获得 1 分,最终以各回答的累计得分作为量化奖励。相比 “两两比较”,这种方式能减少标注工作量,同时保留更丰富的质量梯度。
两两比较:仅为 RL 奖励来源的 “子集”。例如对比 “北平是中国首都” 与 “北京是中国首都”,标注 “北京更优” 并转化为 “1 分、0 分” 的奖励。适合样本量少、需精准区分细微差异的场景,但绝非 RL 的唯一选择。
2. 奖励构建的 2 个关键技术步骤:从 “主观判断” 到 “稳定优化” 的桥梁
标注获取的 “评分、排序、比较” 只是原始信号,要转化为 RL 可高效优化的奖励,还需两步核心技术处理 —— 这也是此前对话完全遗漏的环节:
信号量化:将标注者的主观判断转化为数值奖励。比如 “非常好” 对应 10 分、“一般” 对应 5 分、“差” 对应 0 分,或把 “排序结果” 转化为连续概率值(如解法 A 的胜率为 80%),让模型能通过数值差异感知偏好。
奖励 Shaping:解决 “奖励方差过大、训练不稳定” 的问题。常见操作包括:①奖励裁剪(将极端分数 [0,10] 限制为 [1,9],避免模型过拟合极端样本);②基线减去(用所有回答的平均分数做基线,让奖励围绕 0 波动,加速梯度下降);③折扣因子(对长对话的后续步骤加 0.95 折扣,强调初始决策的重要性)。缺少这一步,RL 训练易出现 “震荡不收敛”,甚至效果不如 SFT。
二、SFT 逼近 RL 的真相:3 个前提 + 2 个技术,而非 “调整样本配比”
根据 iw-SFT(重要性加权 SFT)论文(Qin & Springenberg, 2025),SFT 要实现 “逼近 RL 效果”,需满足严格前提,并通过特定技术优化,绝非简单调整样本权重就能实现。
1. 3 个关键条件:SFT 逼近 RL 的必备要素
SFT 仅在特定场景下具备逼近 RL 的可能,这 3 个前提缺一不可:
前提 1:数据与 RL 目标偏好对齐
SFT 的标注数据(如 “高置信度答案”)必须与 RL 的奖励目标一致。例如 RL 的目标是 “生成简洁且准确的回答”,若 SFT 数据是 “正确但冗余的回答”(如 “北京是中国首都,位于亚洲东部,是直辖市”),即便调整置信度配比,也无法逼近 RL—— 因为数据本身未对齐 RL 的偏好。
前提 2:数据包含细粒度质量梯度
仅标注 “高 / 低置信度” 不够,需更细的质量分层(如 “90% 置信度>70% 置信度>50% 置信度”)。这是 SFT 模拟 RL “偏好梯度” 的基础:梯度粒度越细,SFT 越能感知 “哪种答案更优”,逼近 RL 的效果越好。
前提 3:任务场景为 “简单单轮任务”
SFT 仅适用于 “单轮对话、短文本生成”(如问答、关键词提取)。若任务是 “多轮对话、复杂逻辑推理”(如数学证明、代码调试),RL 能通过 “轨迹级奖励”(对多轮推理的每一步打分)优化长序列决策,而 SFT 仅能优化单条样本的输出,无法模拟多步决策的关联性,此时 SFT 再优化也无法逼近 RL。
2. 2 个核心技术:SFT 收紧 RL 下界的 “关键手段”
满足前提后,需通过 iw-SFT 的核心技术,让 SFT 逐步逼近 RL 效果,这两步是此前遗漏的理论核心:
技术 1:重要性加权(Importance Weighting)
在 SFT 的目标函数中,引入 RL 的 “参考政策 π_ref”(如初始 SFT 模型的输出分布)和 “辅助分布 q”(动态逼近 RL 的目标政策 p),计算样本权重 w = q (τ)/π_ref (τ)。本质是让 SFT “重点学习 RL 中奖励更高的样本”—— 比如 RL 中 “北京是中国首都” 的奖励更高,对应 q (τ) 更大,SFT 会给该样本更高的 w,实现 “向 RL 偏好对齐”。这与 “固定置信度配比” 完全不同:权重 w 是动态跟随 RL 目标调整的,而非预设的固定值。
技术 2:权重控制与方差抑制
仅加权会导致 “高权重样本主导训练,方差爆炸”,需配套两个操作:①权重裁剪(将极端权重 w 限制在 [0.5,2],避免模型过拟合高权重样本);②分布平滑(混合 5% 的参考政策 π_ref 样本,确保 SFT 的训练分布不偏离初始模型太远)。缺少这一步,SFT 训练易出现 “过拟合高奖励样本,泛化性下降” 的问题。
3. 效果边界:SFT “逼近” 而非 “等同”,存在理论上限
需明确的是,SFT 始终是 RL 目标的 “松散下界”,即便优化到位,也存在两点局限:
效果上限由 “辅助分布 q 与目标政策 p 的差距” 决定:若 q 无法完全逼近 p(如复杂任务中 p 的分布太灵活,q 难以捕捉),SFT 的效果会低于 RL;
无法处理 “轨迹级奖励”:如前所述,多轮任务中 RL 的优势是 “优化整体轨迹的累积奖励”,而 SFT 仅能优化单条样本,这一差异是 SFT 无法跨越的理论鸿沟。
三、实践建议:如何根据场景选择 SFT 或 RL?
结合上述理论修正,提供 3 点具体落地建议:
简单单轮任务(如问答、客服):优先采用 SFT + 重要性加权方案。在满足 “数据对齐偏好 + 细粒度梯度” 条件下,通过 iw-SFT 技术优化,可将标注成本降低至原来的 50%,同时实现 RL 80%-90% 的效果;
复杂多轮或推理任务(如代码编写、数学解题):推荐直接使用 RL 方法。由于 SFT 难以实现轨迹级优化,RL 的优势在此类场景中更为显著。可先通过 SFT 构建基础模型,再利用少量样本进行 RL 微调,以此平衡成本与优化效果;
标注资源有限时:RL 任务建议选择 “单轨迹绝对评分” 方式。相较于 “两两比较” 法,该方式能减少 50% 的标注工作量,配合奖励 Shaping 策略,可在资源受限情况下保障优化效果。
结语
在技术讨论中,采用 “简化理论” 虽能降低理解难度,但会带来实践应用时的偏差风险。RL 的奖励构建涉及复杂的多因素交互,并非简单的 “两两配对”;SFT 逼近 RL 的过程,也远超 “调整样本配比” 的常规操作范畴。只有精确掌握理论细节与适用边界,才能在实际落地过程中减少不必要的试错成本。
参考文献
Qin, C., & Springenberg, J. T. (2025). Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved). arXiv preprint arXiv:2507.12856v2. Retrieved from https://arxiv.org/pdf/2507.12856v2.pdf