1 min read

LLM:RL's Razor 抗遗忘(4)on-policy认知误区

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

从on-policy概念混淆到准确理解,大模型强化学习实践中,on-policy的核心逻辑常因表述偏差产生误解。风控、分发等场景的实操讨论中,既有对策略贴合、迭代调整等核心属性的准确把握,也存在对样本来源、生成含义、划分标准的认知偏差。本文结合Chen等人(2025)与Shenfeld等人(2025)的论文结论,梳理讨论中的正确逻辑与误区,明确on-policy的底层原理。

一、表述正确的底层逻辑

  1. on-policy的核心目标是贴合策略,聚焦与策略强相关的样本。风控场景中重点学习尾部用户类策略目标样本,忽略无响应价值的优质用户;分发场景中优先匹配机构资金计划充足的撮合需求,均符合on-policy样本与当前策略高度契合的核心定义。

  2. 早期强化学习的样本收集特性明确,80年代RL需与环境真实交互(如机器人摔倒、自动驾驶试错),样本获取成本高,与on-policy的历史背景一致。

  3. on-policy具备迭代调整属性,需每轮训练动态调整样本,而非一步到位,区别于off-policy的固定样本模式,契合RL中样本随当前策略同步更新的逻辑。

  4. 准确区分SFT与on-policy的样本属性,未经过策略适配的真实逾期标注样本本质是SFT的off-policy数据,需通过策略筛选适配才能转化为on-policy样本。

  5. 分发场景案例贴合概念本质,每笔撮合需考虑上一笔结果(机构资金计划变化),体现on-policy与环境实时交互、样本依赖当前状态的核心特性。

二、表述错误的逻辑及纠正

1. 样本来源误解:局限历史数据,否定策略驱动生成

  • on-policy的样本来源不局限于历史数据,核心是由当前策略驱动生成筛选,包含三种形式。一是早期RL的真实环境交互生成,如机器人按当前策略迈步导致的摔倒数据;二是仿真环境生成,如风控分发场景的模拟交易数据;三是历史数据动态筛选,如按当前尾部用户策略从历史日志中提取适配样本。关键在于样本是否随当前策略同步调整,而非是否来自历史数据。

2. 生成含义曲解:将策略驱动获取等同于凭空创造

  • RL中on-policy的“生成”是策略驱动的样本获取,而非凭空创造。真实环境生成是策略执行后的真实反馈数据,历史数据筛选是按当前策略从真实日志中提取适配样本,两者均基于真实数据基础。仿真生成则是在真实数据规律上模拟策略相关场景,核心仍是贴合当前策略,与凭空创造”无关。

3. 定义简化:将动态迭代筛选等同于一次性挑样本

  • on-policy的挑样本是动态迭代的。不是一次性筛选出为尾部用户就结束,而是每轮训练后,根据策略更新结果(如调整高负债阈值)重新筛选样本,确保样本始终贴合当前策略分布。若仅一次性筛选历史样本且后续不调整,本质仍是off-policy。

4. 划分标准混淆:以样本来源划分,而非动态适配

  • on/off-policy的核心区别是样本与当前策略的同步性。off-policy的样本固定不变,如SFT的标注集、一次性筛选的历史样本,与后续策略更新无关;on-policy的样本随每轮策略更新同步调整,无论来源是历史筛选还是环境生成,只要贴合当前策略分布,就是on-policy样本。

三、on-policy核心概念梳理(结合实操场景)

  1. 核心判断标准:样本是否随当前策略动态调整,是否与策略目标高度契合,而非样本来源或是否经过仿真。

  2. 与off-policy的实操区分:相同历史数据,一次性筛选后固定训练是off-policy;每轮按更新后的策略重新筛选是on-policy。

  3. 仿真与生成的关系:仿真只是on-policy样本获取的一种方式,目的是在低成本前提下获取贴合策略的样本,与真实环境生成、历史数据筛选本质一致,均服务于样本贴合当前策略的核心目标。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:从 Prompt 设计到工作流落地 2025-08-28
18 LLM:RL's Razor 抗遗忘 2025-09-04
19 LLM:RL's Razor 抗遗忘(2) 2025-09-04
20 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03