一、贝尔曼方程(Bellman Equation):强化学习的底层理论基础
贝尔曼方程由理查德·贝尔曼(Richard Bellman)于1950年代提出,是动态规划理论的核心构成,也是现代强化学习的底层数学:基础。
该方程的核心逻辑可表述为,一个状态的长期总价值,等于当前状态可获得的即时收益,加上后续所有决策步骤可获得的最优收益折现。其标准形式为:
$$V(s) = R(s) + \gamma \max_a Q(s,a)$$
其中:
- $V(s)$ 为当前状态的长期总价值
- $R(s)$ 为当前状态的即时收益
- $\gamma$ 为未来收益的折现系数
- $\max_a Q(s,a)$ 为后续决策可获得的最优未来收益
主流强化学习算法包括Q-learning、SARSA、PPO等,核心目标多为通过不同计算方式,逼近该方程描述的理想最优解。
二、行为克隆(Behavior Cloning):学术定义、溯源与场景适配
行为克隆是模仿学习(Imitation Learning)领域的标准学术概念,属于该领域的基础范式。
该方法的核心逻辑为,通过监督学习拟合人类专家的输入-动作映射关系,模型将人类决策结果作为监督标签进行训练,不依赖环境交互与奖励信号,仅复刻既有决策模式,不进行额外的策略优化。
学术溯源
行为克隆没有单一发明人,其核心工程原型来自Pomerleau于1989年提出的ALVINN系统,该系统通过神经网络复刻人类驾驶行为,实现自动驾驶场景的基础决策。2000年后,该方法逐步形成行为克隆的标准学术定名,成为模仿学习领域的基准方法。
场景应用
行为克隆最早应用于自动驾驶与机器人控制领域,当前已拓展至更多需要复刻人类决策的场景。以支付风控的自助解限场景为例,模型输入为用户交易特征、行为数据与风险规则,人类专家动作为风控人员的加白或不放行决策,将风控决策作为监督标签训练模型的过程,即为行为克隆的标准应用,其底层逻辑与自动驾驶、机器人控制领域的应用完全一致。
三、探索与利用:贝尔曼方程框架下的逻辑定位
探索与利用是强化学习算法求解过程中的核心决策模式,二者的平衡是算法收敛至有效策略的核心条件。
利用指基于当前已有的价值估计,选择评估结果最优的动作,对应贝尔曼方程中的最大化操作,是方程原生结构包含的核心决策逻辑。
探索指主动选择当前评估下非最优的动作,通过获取新的环境反馈修正价值估计。该行为不属于贝尔曼方程的原生结构,是算法求解过程中引入的补充策略,用于避免模型收敛至局部最优解。
二者的约束关系明确,缺少探索,模型易收敛至局部最优解;缺少利用,模型无法完成有效收敛,持续处于随机试错状态。
探索行为可被视作对利用策略的反事实推理。利用基于现有经验完成事实性决策,探索则通过执行替代动作,完成对非最优策略效果的反事实验证,两类行为共同推动模型价值估计逼近贝尔曼方程描述的理想最优解。
参考文献
Bellman, R. (1957). Dynamic programming. Princeton University Press.
Pomerleau, D. A. (1989). ALVINN: An autonomous land vehicle in a neural network. Advances in Neural Information Processing Systems, 2.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT Press.