从on-policy概念混淆到准确理解,大模型强化学习实践中,on-policy的核心逻辑常因表述偏差产生误解。风控、分发等场景的实操讨论中,既有对策略贴合、迭代调整等核心属性的准确把握,也存在对样本来源、生成含义、划分标准的认知偏差。本文结合Chen等人(2025)与Shenfeld等人(2025)的论文结论,梳理讨论中的正确逻辑与误区,明确on-policy的底层原理。
一、表述正确的底层逻辑
on-policy的核心目标是贴合策略,聚焦与策略强相关的样本。风控场景中重点学习尾部用户类策略目标样本,忽略无响应价值的优质用户;分发场景中优先匹配机构资金计划充足的撮合需求,均符合on-policy样本与当前策略高度契合的核心定义。
早期强化学习的样本收集特性明确,80年代RL需与环境真实交互(如机器人摔倒、自动驾驶试错),样本获取成本高,与on-policy的历史背景一致。
on-policy具备迭代调整属性,需每轮训练动态调整样本,而非一步到位,区别于off-policy的固定样本模式,契合RL中样本随当前策略同步更新的逻辑。
准确区分SFT与on-policy的样本属性,未经过策略适配的真实逾期标注样本本质是SFT的off-policy数据,需通过策略筛选适配才能转化为on-policy样本。
分发场景案例贴合概念本质,每笔撮合需考虑上一笔结果(机构资金计划变化),体现on-policy与环境实时交互、样本依赖当前状态的核心特性。
二、表述错误的逻辑及纠正
1. 样本来源误解:局限历史数据,否定策略驱动生成
- on-policy的样本来源不局限于历史数据,核心是由当前策略驱动生成或筛选,包含三种形式。一是早期RL的真实环境交互生成,如机器人按当前策略迈步导致的摔倒数据;二是仿真环境生成,如风控分发场景的模拟交易数据;三是历史数据动态筛选,如按当前尾部用户策略从历史日志中提取适配样本。关键在于样本是否随当前策略同步调整,而非是否来自历史数据。
2. 生成含义曲解:将策略驱动获取等同于凭空创造
- RL中on-policy的“生成”是策略驱动的样本获取,而非凭空创造。真实环境生成是策略执行后的真实反馈数据,历史数据筛选是按当前策略从真实日志中提取适配样本,两者均基于真实数据基础。仿真生成则是在真实数据规律上模拟策略相关场景,核心仍是贴合当前策略,与凭空创造”无关。
3. 定义简化:将动态迭代筛选等同于一次性挑样本
- on-policy的挑样本是动态迭代的。不是一次性筛选出为尾部用户就结束,而是每轮训练后,根据策略更新结果(如调整高负债阈值)重新筛选样本,确保样本始终贴合当前策略分布。若仅一次性筛选历史样本且后续不调整,本质仍是off-policy。
4. 划分标准混淆:以样本来源划分,而非动态适配
- on/off-policy的核心区别是样本与当前策略的同步性。off-policy的样本固定不变,如SFT的标注集、一次性筛选的历史样本,与后续策略更新无关;on-policy的样本随每轮策略更新同步调整,无论来源是历史筛选还是环境生成,只要贴合当前策略分布,就是on-policy样本。
三、on-policy核心概念梳理(结合实操场景)
核心判断标准:样本是否随当前策略动态调整,是否与策略目标高度契合,而非样本来源或是否经过仿真。
与off-policy的实操区分:相同历史数据,一次性筛选后固定训练是off-policy;每轮按更新后的策略重新筛选是on-policy。
仿真与生成的关系:仿真只是on-policy样本获取的一种方式,目的是在低成本前提下获取贴合策略的样本,与真实环境生成、历史数据筛选本质一致,均服务于样本贴合当前策略的核心目标。
参考文献
Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874
Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259