LLM：RL's Razor 抗遗忘（5）RL在线生成样本

从RL在线生成样本概念混淆到准确认知辨别，大模型强化学习实践中，“在线生成”、“on-policy”、“off-policy”的核心逻辑常因场景化表述产生理解偏差。风控、模型训练等实操讨论中，既有对RL抗遗忘机制、奖励函数作用的准确把握，也存在对在线生成本质、样本来源与策略关系的认知误区。本文结合Chen等人（2025）与Shenfeld等人（2025）的论文结论，梳理讨论中的正确逻辑与偏差，明确RL在线生成样本的底层原理。

RL抗遗忘的核心机制是通过保留旧策略相关样本实现的。在新样本训练时，按比例纳入原有策略能准确判断的样本（如低收入高负债逾期用户），可避免旧规则被遗忘，这正契合on-policy数据贴合策略分布以减少遗忘的核心结论。奖励函数在此过程中扮演着样本比例分配与优先级排序的角色，它管理多策略场景下的样本选择规则，避免无章可循，符合RL中奖励函数引导策略优化的基础逻辑。

模型稳定性的评估常采用PSI（Population Stability Index）指标，通过对比训练集与线上数据集的打分分布差异，判断模型是否适配实际场景。通常PSI高于0.1被视为波动过大。RL通过奖励函数优化可有效降低PSI，从而提升模型稳定性。这一机制同样适用于SFT（监督微调）场景——SFT可借鉴RL的采样逻辑（如奖励函数筛选样本），接近RL的抗遗忘效果，与Iterative-SFT通过动态采样近似on-policy数据的思路一致。

理解RL中的”在线生成”概念需澄清其广义定义。RL中”在线生成”是策略驱动的实时样本获取，包含两种场景：一是真实环境生成，如机器人按当前策略与环境交互产生的新数据，属于主动造样本；二是历史数据筛选，按当前策略从日志中提取适配样本，属于策略主导的被动筛选。早期RL（如机器人交互）因缺乏历史数据，只能通过真实环境造样本；后期Q-Learning则利用历史日志筛选适配样本，两者在学科定义中均属”生成”。这里的”生成”核心是策略主导样本获取，而”筛选”是工业场景中降低生成成本的落地方式，两者是广义概念与具体实现的关系，本质均为on-policy样本获取。在线生成的关键在于样本与当前策略同步，而非是否脱离历史数据。

参考文献

Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025). Retaining by doing: The role of on-policy data in mitigating forgetting. arXiv. https://arxiv.org/abs/2510.18874

Shenfeld, I., Pari, J., & Agrawal, P. (2025). RL’s Razor: Why online reinforcement learning forgets less. arXiv. https://arxiv.org/abs/2509.04259

LLM：RL's Razor 抗遗忘（5）RL在线生成样本

LLM 系列导航

参考文献

LLM 系列导航