从RL在线生成样本概念混淆到准确认知辨别,大模型强化学习实践中,“在线生成”、“on-policy”、“off-policy”的核心逻辑常因场景化表述产生理解偏差。风控、模型训练等实操讨论中,既有对RL抗遗忘机制、奖励函数作用的准确把握,也存在对在线生成本质、样本来源与策略关系的认知误区。本文结合Chen等人(2025)与Shenfeld等人(2025)的论文结论,梳理讨论中的正确逻辑与偏差,明确RL在线生成样本的底层原理。
RL抗遗忘的核心机制是通过保留旧策略相关样本实现的。在新样本训练时,按比例纳入原有策略能准确判断的样本(如低收入高负债逾期用户),可避免旧规则被遗忘,这正契合on-policy数据贴合策略分布以减少遗忘的核心结论。奖励函数在此过程中扮演着样本比例分配与优先级排序的角色,它管理多策略场景下的样本选择规则,避免无章可循,符合RL中奖励函数引导策略优化的基础逻辑。
模型稳定性的评估常采用PSI(Population Stability Index)指标,通过对比训练集与线上数据集的打分分布差异,判断模型是否适配实际场景。通常PSI高于0.1被视为波动过大。RL通过奖励函数优化可有效降低PSI,从而提升模型稳定性。这一机制同样适用于SFT(监督微调)场景——SFT可借鉴RL的采样逻辑(如奖励函数筛选样本),接近RL的抗遗忘效果,与Iterative-SFT通过动态采样近似on-policy数据的思路一致。
理解RL中的”在线生成”概念需澄清其广义定义。RL中”在线生成”是策略驱动的实时样本获取,包含两种场景:一是真实环境生成,如机器人按当前策略与环境交互产生的新数据,属于主动造样本;二是历史数据筛选,按当前策略从日志中提取适配样本,属于策略主导的被动筛选。早期RL(如机器人交互)因缺乏历史数据,只能通过真实环境造样本;后期Q-Learning则利用历史日志筛选适配样本,两者在学科定义中均属”生成”。这里的”生成”核心是策略主导样本获取,而”筛选”是工业场景中降低生成成本的落地方式,两者是广义概念与具体实现的关系,本质均为on-policy样本获取。在线生成的关键在于样本与当前策略同步,而非是否脱离历史数据。
参考文献
Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874
Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259