1 min read

LLM:SFT 与 RL 的关系(理论修正与实践补充II)

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

继前两篇关于 SFT(监督微调)与 RL(强化学习)的理论解析后,读者的互动讨论聚焦于 “落地细节” 与 “认知偏差”:从 “标注难度差异” 到 “松弛下界的通俗理解”,再到金融场景的指标阈值,不少讨论虽贴近实操,但也暴露了理论简化后的认知误区。本文结合对话中的核心疑问,一边复盘解答,一边修正偏差,为技术落地提供更严谨的实操说明。

一、聚焦落地的 4 个关键疑问

围绕 “怎么选、怎么用、为什么” 展开,结合理论与金融场景实操,整理出最具代表性的解答:

读者核心疑问 通俗解答 严谨补充
1. SFT 和 RL 的标注,到底难在哪? SFT 标 “对 / 错”(简单),RL 标 “优劣”(复杂,需打分 / 排序) 不止二元标注:SFT 可做细粒度标注(如金融样本逾期金额大小可标记为 “高风险 / 中风险”);RL 标注形式灵活(单轨迹打分、多轨迹排序均可,两两配对只是子集)
2. “松弛下界” 到底是什么意思? SFT 是 RL 的底线(SFT 天花板 80 分,RL 能考 80-90 分) 理论核心:RL 效果≥SFT(理论上),但 RL 可能因奖励设计不当考 70 分;SFT 是 “保底分”,优化后可逼近 RL(如 iw-SFT 加权),并非固定天花板
3. 金融场景为什么只用 SFT,不用 RL? RL 标注要求高、成本高,金融数据满足不了 核心原因:金融需 “稳定 + 可解释”——RL 奖励函数设计复杂,易因标注噪声导致风险误判(FP/FN);SFT 标注 “逾期 / 未逾期” 贴合业务,且可通过权重优化模拟 RL 偏好
4. 金融场景 AUC 多少才算合格? AUC≥0.6 能用,≥0.7 才达标 无固定阈值:头部高风险提纯(AUC 0.65 可接受),全量用户排序(需≥0.7);AUC 与 KS 无固定对应(如 AUC 0.6 可能 KS 8% 或 15%,看数据分布)

二、实践延伸

金融场景只用 SFT,但实操中 SFT 并非被动学样本,而是通过 2 个关键操作,融入 RL 的偏好逻辑,实现低成本逼近 RL 效果。SFT 标注时,会给高价值样本更高权重 —— 比如:

  • 逾期 10 万元的样本权重,是逾期 100 元样本的 5 倍;

  • 低龄、高负债等高风险客群样本,权重提升。

这本质是让 SFT 的 “辅助分布 q” 对齐 RL 的 “奖励分布”:让模型重点学习 RL 认为该奖励(高关注) 的样本,而非机械平等对待所有样本。

结语

技术落地的核心,是跳出非黑即白的简化认知 ——SFT 不是只能做基础活,RL 也不是 万能更优解。理论到实操的关键不是听不懂公式,而是不知道如何根据场景灵活调整理论,如何在成本、效果、风险之间找到平衡。

对于金融、客服等落地导向的场景,与其纠结 RL 比 SFT 先进多少,不如先把 SFT 的细粒度标注 + 权重优化做好 —— 这往往能以最低成本达到 80% 的 RL 效果。而当业务需要 突破上限(如动态多轮对话、复杂推理)时,再引入 RL 做针对性优化,才是最务实的选择。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03