引言
大语言模型在推理任务上表现优异,但原生无法输出校准化多分类概率分布。这一缺陷限制了其在内容审核、欺诈检测、金融风险评估等高风险Web决策场景中的应用。传统解决方案存在固有短板:基于logits的方法词汇空间过大,概率严重失准;基于embedding的方法丢失思维链的可解释推理能力;标准强化学习奖励粒度不足,导致概率坍缩与AUC退化。
本文分析RLVP框架如何通过语言化概率分布与专家软概率稠密奖励,解决上述问题。
一、语言化概率分布范式
RLVP的核心创新,是将表格数据序列化为自然语言提示,让大语言模型同时生成思维链推理与语言化多分类概率分布(以JSON格式输出)。这一范式解决了传统方法的两难困境:既保留可解释的推理过程,又输出校准化的概率分布。
以欺诈检测为例,模型输出应同时包含对交易特征的推理分析(如用户行为异常、IP地域不匹配)与各类别的置信度分布(如欺诈0.82、正常0.18)。风控场景需要的不仅是单一分类结果,更是可校准的风险分数,用于设定风险阈值、估计不确定性、支持人工审核。
二、专家软概率稠密奖励
标准强化学习分类奖励通常只有两个维度:格式是否正确(0或1)、预测是否准确(0或1)。这种稀疏奖励不足以指导模型学习概率校准。
RLVP引入第三个维度——概率对齐奖励。核心思想是用专家模型(如XGBoost)的软概率作为稠密信号,替代静态标签平滑。具体做法是:先用专家模型对训练集输出软概率分布,然后让大语言模型的输出越接近专家的分布,获得越高奖励。
奖励函数设计如下:
格式奖励确保输出包含思维链与可解析的JSON;正确性奖励保证最大概率类别匹配真实标签;概率对齐奖励用KL散度度量模型输出与专家软概率的差异,并以指数形式转换为稠密奖励。
三、α退火策略
RLVP并非让模型永久模仿专家模型。训练过程中引入α退火策略:α从1线性衰减至0。
训练初期(α=1),模型完全跟随专家软概率学习。专家模型本身是校准过的风险模型,其概率分布蕴含风控领域的先验知识。模型通过这一阶段学会稳定、可信的概率表达,避免输出极端值。
训练后期(α=0),模型逐渐脱离专家,直接优化真实标签。此时模型已从专家那里习得了风险感知能力,开始尝试超越专家。
这一策略的本质,是课程学习的变体:先学习概率分布的结构,再优化判别精度。实验表明,退火策略显著提升了模型的泛化性能。
四、实验结果
RLVP在169个表格任务上联合训练,采用Qwen2.5-7B-Instruct作为基座模型。实验设置包括6个代表性Web表格任务的单任务验证、169个UniPredict表格任务的规模化训练,以及8个AMLB多模态任务的泛化测试。
单任务实验中,RLVP-Anneal在6个Web任务的AUC与ECE指标上均达到最优,全面超越XGBoost基线。规模化训练结果显示,55%的任务上RLVP超越XGBoost。
泛化测试中,RLVP在零样本场景下即在半数未见任务上超越32样本小样本的XGBoost,复杂文本任务(如jigsaw、wine reviews)的AUC达到0.95以上。
消融实验表明,每提示8轮rollout时性能达到饱和,7B模型规模效果最优。更小的0.5B模型无法有效学习,说明语言化概率范式对模型规模有一定要求。
五、局限与展望
RLVP的训练成本较高,依赖单一专家模型。未来工作可探索集成专家奖励、无外部依赖的自主置信度方法,进一步降低对专家模型的依赖。
跨结构化数据到非结构化Web数据的概率推理迁移,是另一个值得深入的方向。RLVP在表格数据上的成功,为结构化与非结构化数据融合的风控模型提供了可能。
结语
RLVP框架通过语言化概率分布与专家软概率稠密奖励,首次实现了大语言模型多分类概率与思维链的联合生成。其核心贡献在于用课程学习的方式,让模型既获得专家的风险感知能力,又能超越专家实现更强的泛化性能。这一工作为高风险Web应用场景中可靠、可解释、带概率的大语言模型落地提供了可行路径。
参考文献
Li, L., Chen, H., Tian, J., Ye, W., Gao, L., Ye, C., Wang, N., Fu, X., Cheng, Y., Wang, H., Chen, G., & Zhao, J. (2026). Reinforcement Learning with Verbalized Probabilities for LLM Classification. In Proceedings of the ACM Web Conference 2026 (WWW ‘26), April 13–17, 2026, Dubai, United Arab Emirates. ACM, New York, NY, USA. https://doi.org/10.1145/3774904.3792540