1 min read

LLM:强化学习风控(1)RLVP框架与专家稠密奖励

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness:Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15

引言

大语言模型在推理任务上表现优异,但原生无法输出校准化多分类概率分布。这一缺陷限制了其在内容审核、欺诈检测、金融风险评估等高风险Web决策场景中的应用。传统解决方案存在固有短板:基于logits的方法词汇空间过大,概率严重失准;基于embedding的方法丢失思维链的可解释推理能力;标准强化学习奖励粒度不足,导致概率坍缩与AUC退化。

本文分析RLVP框架如何通过语言化概率分布与专家软概率稠密奖励,解决上述问题。

一、语言化概率分布范式

RLVP的核心创新,是将表格数据序列化为自然语言提示,让大语言模型同时生成思维链推理与语言化多分类概率分布(以JSON格式输出)。这一范式解决了传统方法的两难困境:既保留可解释的推理过程,又输出校准化的概率分布。

以欺诈检测为例,模型输出应同时包含对交易特征的推理分析(如用户行为异常、IP地域不匹配)与各类别的置信度分布(如欺诈0.82、正常0.18)。风控场景需要的不仅是单一分类结果,更是可校准的风险分数,用于设定风险阈值、估计不确定性、支持人工审核。

二、专家软概率稠密奖励

标准强化学习分类奖励通常只有两个维度:格式是否正确(0或1)、预测是否准确(0或1)。这种稀疏奖励不足以指导模型学习概率校准。

RLVP引入第三个维度——概率对齐奖励。核心思想是用专家模型(如XGBoost)的软概率作为稠密信号,替代静态标签平滑。具体做法是:先用专家模型对训练集输出软概率分布,然后让大语言模型的输出越接近专家的分布,获得越高奖励。

奖励函数设计如下:

格式奖励确保输出包含思维链与可解析的JSON;正确性奖励保证最大概率类别匹配真实标签;概率对齐奖励用KL散度度量模型输出与专家软概率的差异,并以指数形式转换为稠密奖励。

三、α退火策略

RLVP并非让模型永久模仿专家模型。训练过程中引入α退火策略:α从1线性衰减至0。

训练初期(α=1),模型完全跟随专家软概率学习。专家模型本身是校准过的风险模型,其概率分布蕴含风控领域的先验知识。模型通过这一阶段学会稳定、可信的概率表达,避免输出极端值。

训练后期(α=0),模型逐渐脱离专家,直接优化真实标签。此时模型已从专家那里习得了风险感知能力,开始尝试超越专家。

这一策略的本质,是课程学习的变体:先学习概率分布的结构,再优化判别精度。实验表明,退火策略显著提升了模型的泛化性能。

四、实验结果

RLVP在169个表格任务上联合训练,采用Qwen2.5-7B-Instruct作为基座模型。实验设置包括6个代表性Web表格任务的单任务验证、169个UniPredict表格任务的规模化训练,以及8个AMLB多模态任务的泛化测试。

单任务实验中,RLVP-Anneal在6个Web任务的AUC与ECE指标上均达到最优,全面超越XGBoost基线。规模化训练结果显示,55%的任务上RLVP超越XGBoost。

泛化测试中,RLVP在零样本场景下即在半数未见任务上超越32样本小样本的XGBoost,复杂文本任务(如jigsaw、wine reviews)的AUC达到0.95以上。

消融实验表明,每提示8轮rollout时性能达到饱和,7B模型规模效果最优。更小的0.5B模型无法有效学习,说明语言化概率范式对模型规模有一定要求。

五、局限与展望

RLVP的训练成本较高,依赖单一专家模型。未来工作可探索集成专家奖励、无外部依赖的自主置信度方法,进一步降低对专家模型的依赖。

跨结构化数据到非结构化Web数据的概率推理迁移,是另一个值得深入的方向。RLVP在表格数据上的成功,为结构化与非结构化数据融合的风控模型提供了可能。

结语

RLVP框架通过语言化概率分布与专家软概率稠密奖励,首次实现了大语言模型多分类概率与思维链的联合生成。其核心贡献在于用课程学习的方式,让模型既获得专家的风险感知能力,又能超越专家实现更强的泛化性能。这一工作为高风险Web应用场景中可靠、可解释、带概率的大语言模型落地提供了可行路径。

参考文献

Li, L., Chen, H., Tian, J., Ye, W., Gao, L., Ye, C., Wang, N., Fu, X., Cheng, Y., Wang, H., Chen, G., & Zhao, J. (2026). Reinforcement Learning with Verbalized Probabilities for LLM Classification. In Proceedings of the ACM Web Conference 2026 (WWW ‘26), April 13–17, 2026, Dubai, United Arab Emirates. ACM, New York, NY, USA. https://doi.org/10.1145/3774904.3792540

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness:Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15