LLM：RL's Razor 抗遗忘（4）on-policy认知误区

从on-policy概念混淆到准确理解，大模型强化学习实践中，on-policy的核心逻辑常因表述偏差产生误解。风控、分发等场景的实操讨论中，既有对策略贴合、迭代调整等核心属性的准确把握，也存在对样本来源、生成含义、划分标准的认知偏差。本文结合Chen等人（2025）与Shenfeld等人（2025）的论文结论，梳理讨论中的正确逻辑与误区，明确on-policy的底层原理。

一、表述正确的底层逻辑

on-policy的核心目标是贴合策略，聚焦与策略强相关的样本。风控场景中重点学习尾部用户类策略目标样本，忽略无响应价值的优质用户；分发场景中优先匹配机构资金计划充足的撮合需求，均符合on-policy样本与当前策略高度契合的核心定义。
早期强化学习的样本收集特性明确，80年代RL需与环境真实交互（如机器人摔倒、自动驾驶试错），样本获取成本高，与on-policy的历史背景一致。
on-policy具备迭代调整属性，需每轮训练动态调整样本，而非一步到位，区别于off-policy的固定样本模式，契合RL中样本随当前策略同步更新的逻辑。
准确区分SFT与on-policy的样本属性，未经过策略适配的真实逾期标注样本本质是SFT的off-policy数据，需通过策略筛选适配才能转化为on-policy样本。
分发场景案例贴合概念本质，每笔撮合需考虑上一笔结果（机构资金计划变化），体现on-policy与环境实时交互、样本依赖当前状态的核心特性。

二、表述错误的逻辑及纠正

1. 样本来源误解：局限历史数据，否定策略驱动生成

on-policy的样本来源不局限于历史数据，核心是由当前策略驱动生成或筛选，包含三种形式。一是早期RL的真实环境交互生成，如机器人按当前策略迈步导致的摔倒数据；二是仿真环境生成，如风控分发场景的模拟交易数据；三是历史数据动态筛选，如按当前尾部用户策略从历史日志中提取适配样本。关键在于样本是否随当前策略同步调整，而非是否来自历史数据。

2. 生成含义曲解：将策略驱动获取等同于凭空创造

RL中on-policy的“生成”是策略驱动的样本获取，而非凭空创造。真实环境生成是策略执行后的真实反馈数据，历史数据筛选是按当前策略从真实日志中提取适配样本，两者均基于真实数据基础。仿真生成则是在真实数据规律上模拟策略相关场景，核心仍是贴合当前策略，与凭空创造”无关。

3. 定义简化：将动态迭代筛选等同于一次性挑样本

on-policy的挑样本是动态迭代的。不是一次性筛选出为尾部用户就结束，而是每轮训练后，根据策略更新结果（如调整高负债阈值）重新筛选样本，确保样本始终贴合当前策略分布。若仅一次性筛选历史样本且后续不调整，本质仍是off-policy。

4. 划分标准混淆：以样本来源划分，而非动态适配

on/off-policy的核心区别是样本与当前策略的同步性。off-policy的样本固定不变，如SFT的标注集、一次性筛选的历史样本，与后续策略更新无关；on-policy的样本随每轮策略更新同步调整，无论来源是历史筛选还是环境生成，只要贴合当前策略分布，就是on-policy样本。

三、on-policy核心概念梳理（结合实操场景）

核心判断标准：样本是否随当前策略动态调整，是否与策略目标高度契合，而非样本来源或是否经过仿真。
与off-policy的实操区分：相同历史数据，一次性筛选后固定训练是off-policy；每轮按更新后的策略重新筛选是on-policy。
仿真与生成的关系：仿真只是on-policy样本获取的一种方式，目的是在低成本前提下获取贴合策略的样本，与真实环境生成、历史数据筛选本质一致，均服务于样本贴合当前策略的核心目标。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259