3 min read

LLM:SFT 与 RL 的关系(理论修正与实践补充)

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

在《LLM:SFT 与 RL 的关系》博客发布后,围绕 “RL 奖励信号如何构建”“SFT 能否逼近 RL” 展开探讨。前期对部分理论的简化阐释存在疏漏,易在实践中引发认知偏差。本文基于 RLHF、iw-SFT 等大模型微调经典理论(Qin & Springenberg, 2025),系统解析 RL 奖励信号的构建机制,明确 SFT 逼近 RL 的必要条件,旨在为技术实现提供精准理论支撑。

一、重新理解 RL:奖励信号构建的完整逻辑,远不止 “两两配对标注”

将 RL 标注逻辑窄化为 “必须两两配对(1 个样本 2 次标注)”,这与 RL 的理论框架存在偏差。事实上,RL 在大模型微调中的核心是 “通过可量化的奖励信号优化政策”,其奖励构建需围绕 “来源灵活性”“技术完整性” 展开,具体可拆解为两大维度:

1. 奖励信号的 3 类核心来源:不止 “两两比较”,更有多元选择

RL 的奖励信号无需绑定 “两两配对”,而是根据任务目标选择适配的标注形式,三类常见来源覆盖了从简单到复杂的场景:

  • 单轨迹绝对评分:直接对单条模型输出打 “绝对分数”,无需对比。例如训练客服对话模型时,标注者给 “精准解决问题 + 语气友好” 的回答打 9 分,给 “未解决核心诉求” 的回答打 3 分。这种方式与 SFT 的 “单一答案标注” 形式相似,但差异在于:SFT 用 “正确 / 错误” 指引模型学习 “标准答案”,RL 用 “分数高低” 引导模型学习 “更符合偏好的答案”。

  • 多轨迹排序:对同一问题的 3-5 条回答做 “全排序”,再转化为奖励。比如 “如何煮米饭” 的 3 种解法,标注者按 “步骤简洁度 + 成功率” 排序为 “解法 A>解法 B>解法 C”,通过 Borda 计数法将排序转化为 “3 分、2 分、1 分” 的奖励。Borda 计数法是一种基于排序的投票计票方法,由法国数学家让 - 查理斯・波达(Jean-Charles de Borda)在 18 世纪提出。在多轨迹排序场景下,其核心逻辑是:设有 个回答,排名第 1 的回答获得 分,排名第 2 的回答获得 分,以此类推,排名最后的回答获得 1 分,最终以各回答的累计得分作为量化奖励。相比 “两两比较”,这种方式能减少标注工作量,同时保留更丰富的质量梯度。

  • 两两比较:仅为 RL 奖励来源的 “子集”。例如对比 “北平是中国首都” 与 “北京是中国首都”,标注 “北京更优” 并转化为 “1 分、0 分” 的奖励。适合样本量少、需精准区分细微差异的场景,但绝非 RL 的唯一选择。

2. 奖励构建的 2 个关键技术步骤:从 “主观判断” 到 “稳定优化” 的桥梁

标注获取的 “评分、排序、比较” 只是原始信号,要转化为 RL 可高效优化的奖励,还需两步核心技术处理 —— 这也是此前对话完全遗漏的环节:

  • 信号量化:将标注者的主观判断转化为数值奖励。比如 “非常好” 对应 10 分、“一般” 对应 5 分、“差” 对应 0 分,或把 “排序结果” 转化为连续概率值(如解法 A 的胜率为 80%),让模型能通过数值差异感知偏好。

  • 奖励 Shaping:解决 “奖励方差过大、训练不稳定” 的问题。常见操作包括:①奖励裁剪(将极端分数 [0,10] 限制为 [1,9],避免模型过拟合极端样本);②基线减去(用所有回答的平均分数做基线,让奖励围绕 0 波动,加速梯度下降);③折扣因子(对长对话的后续步骤加 0.95 折扣,强调初始决策的重要性)。缺少这一步,RL 训练易出现 “震荡不收敛”,甚至效果不如 SFT。

二、SFT 逼近 RL 的真相:3 个前提 + 2 个技术,而非 “调整样本配比”

根据 iw-SFT(重要性加权 SFT)论文(Qin & Springenberg, 2025),SFT 要实现 “逼近 RL 效果”,需满足严格前提,并通过特定技术优化,绝非简单调整样本权重就能实现。

1. 3 个关键条件:SFT 逼近 RL 的必备要素

SFT 仅在特定场景下具备逼近 RL 的可能,这 3 个前提缺一不可:

  • 前提 1:数据与 RL 目标偏好对齐

    SFT 的标注数据(如 “高置信度答案”)必须与 RL 的奖励目标一致。例如 RL 的目标是 “生成简洁且准确的回答”,若 SFT 数据是 “正确但冗余的回答”(如 “北京是中国首都,位于亚洲东部,是直辖市”),即便调整置信度配比,也无法逼近 RL—— 因为数据本身未对齐 RL 的偏好。

  • 前提 2:数据包含细粒度质量梯度

    仅标注 “高 / 低置信度” 不够,需更细的质量分层(如 “90% 置信度>70% 置信度>50% 置信度”)。这是 SFT 模拟 RL “偏好梯度” 的基础:梯度粒度越细,SFT 越能感知 “哪种答案更优”,逼近 RL 的效果越好。

  • 前提 3:任务场景为 “简单单轮任务”

    SFT 仅适用于 “单轮对话、短文本生成”(如问答、关键词提取)。若任务是 “多轮对话、复杂逻辑推理”(如数学证明、代码调试),RL 能通过 “轨迹级奖励”(对多轮推理的每一步打分)优化长序列决策,而 SFT 仅能优化单条样本的输出,无法模拟多步决策的关联性,此时 SFT 再优化也无法逼近 RL。

2. 2 个核心技术:SFT 收紧 RL 下界的 “关键手段”

满足前提后,需通过 iw-SFT 的核心技术,让 SFT 逐步逼近 RL 效果,这两步是此前遗漏的理论核心:

  • 技术 1:重要性加权(Importance Weighting)

    在 SFT 的目标函数中,引入 RL 的 “参考政策 π_ref”(如初始 SFT 模型的输出分布)和 “辅助分布 q”(动态逼近 RL 的目标政策 p),计算样本权重 w = q (τ)/π_ref (τ)。本质是让 SFT “重点学习 RL 中奖励更高的样本”—— 比如 RL 中 “北京是中国首都” 的奖励更高,对应 q (τ) 更大,SFT 会给该样本更高的 w,实现 “向 RL 偏好对齐”。这与 “固定置信度配比” 完全不同:权重 w 是动态跟随 RL 目标调整的,而非预设的固定值。

  • 技术 2:权重控制与方差抑制

    仅加权会导致 “高权重样本主导训练,方差爆炸”,需配套两个操作:①权重裁剪(将极端权重 w 限制在 [0.5,2],避免模型过拟合高权重样本);②分布平滑(混合 5% 的参考政策 π_ref 样本,确保 SFT 的训练分布不偏离初始模型太远)。缺少这一步,SFT 训练易出现 “过拟合高奖励样本,泛化性下降” 的问题。

3. 效果边界:SFT “逼近” 而非 “等同”,存在理论上限

需明确的是,SFT 始终是 RL 目标的 “松散下界”,即便优化到位,也存在两点局限:

  • 效果上限由 “辅助分布 q 与目标政策 p 的差距” 决定:若 q 无法完全逼近 p(如复杂任务中 p 的分布太灵活,q 难以捕捉),SFT 的效果会低于 RL;

  • 无法处理 “轨迹级奖励”:如前所述,多轮任务中 RL 的优势是 “优化整体轨迹的累积奖励”,而 SFT 仅能优化单条样本,这一差异是 SFT 无法跨越的理论鸿沟。

三、实践建议:如何根据场景选择 SFT 或 RL?

结合上述理论修正,提供 3 点具体落地建议:

  1. 简单单轮任务(如问答、客服):优先采用 SFT + 重要性加权方案。在满足 “数据对齐偏好 + 细粒度梯度” 条件下,通过 iw-SFT 技术优化,可将标注成本降低至原来的 50%,同时实现 RL 80%-90% 的效果;

  2. 复杂多轮或推理任务(如代码编写、数学解题):推荐直接使用 RL 方法。由于 SFT 难以实现轨迹级优化,RL 的优势在此类场景中更为显著。可先通过 SFT 构建基础模型,再利用少量样本进行 RL 微调,以此平衡成本与优化效果;

  3. 标注资源有限时:RL 任务建议选择 “单轨迹绝对评分” 方式。相较于 “两两比较” 法,该方式能减少 50% 的标注工作量,配合奖励 Shaping 策略,可在资源受限情况下保障优化效果。

结语

在技术讨论中,采用 “简化理论” 虽能降低理解难度,但会带来实践应用时的偏差风险。RL 的奖励构建涉及复杂的多因素交互,并非简单的 “两两配对”;SFT 逼近 RL 的过程,也远超 “调整样本配比” 的常规操作范畴。只有精确掌握理论细节与适用边界,才能在实际落地过程中减少不必要的试错成本。

参考文献

Qin, C., & Springenberg, J. T. (2025). Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved). arXiv preprint arXiv:2507.12856v2. Retrieved from https://arxiv.org/pdf/2507.12856v2.pdf

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03