本次分享的核心为SimRL的分层评估逻辑与工程落地细节。SimRL全称Similarity-guided Reinforcement Learning,是ICLR 2026收录的STAR框架中的两大核心模块之一,与CKD约束知识蒸馏配合,用于解决超小函数调用模型的强化学习训练问题,本次内容覆盖技术核心逻辑、论文原生设计、工程落地方法三个模块。
技术的核心应用背景,来自传统强化学习二元奖励机制的固有局限。二元奖励机制多采用非对即错的判断规则,通常仅在样本符合所有约束条件时,可获取reward=1的正奖励,存在不符合项时多将奖励置为0。该机制易引发两类核心问题,一是优质正样本数量通常有限,尤其在风控场景中,优质正样本占比普遍偏低,易造成奖励信号稀疏,模型难以获取充足的学习信号;二是训练过程中损失函数波动幅度较大,易出现梯度异常,甚至梯度崩溃的问题,对模型训练效果产生负面影响。SimRL的核心设计思路,是将二元的非对即错判断,转化为多维度、梯度化的分层打分,利用未符合全部约束但部分内容达标的灰样本,为模型提供连续的学习信号。
论文的原生设计分为两大核心模块,分别是分层评估机制,以及支撑该机制的相似性计算。分层评估机制包含两个层面的设计,第一个层面是评估维度的分层,将模型输出拆分为格式、内容、结果三个递进维度,每个维度设置独立的评估标准与奖励权重。格式层为基础维度,校验输出的规范程度,包括JSON结构完整性、函数名是否在可用集合内、是否采用规范的标签包裹,基础权重0.4,该维度达标通常是获取后续维度奖励的基础前提;内容层为核心维度,校验输出与标注样本的匹配程度,包括函数名匹配度、参数完整性、语义等价性,基础权重0.6;结果层为最终维度,校验输出对用户问题的解决程度,也就是任务完成度,基础权重1.0。总奖励为三个维度的分值叠加,可根据业务场景调整权重设置。
第二个层面是每个维度内的正确程度梯度分层,也就是梯度打分规则。以内容层为例,按输出与标注样本的相似程度,设置梯度分值,语义高度等价可获取满分,函数正确+核心参数完整可获取该维度60%的分值,函数正确+次要参数缺失可获取该维度30%的分值,函数名不匹配、语义严重偏离时该维度分值通常置为0。该设计可让未获取全量奖励的样本,也能提供对应的学习信号,帮助模型明确优化方向。
相似性计算是分层评估的核心支撑工具,论文采用AST语法树解析+语义嵌入相似度结合的计算方式。格式层通过AST语法树解析,校验输出语法结构与规范的匹配度;内容层将输出与标注样本转化为语义嵌入,计算余弦相似度,完成匹配度校验;结果层通过任务完成度的匹配度校验,完成分值计算。该方式通过客观标准完成不同维度的正确程度判断,降低人工规则带来的主观性偏差。论文采用GRPO(Group Relative Policy Optimization,组相对策略优化)作为强化学习算法,配合分层奖励机制,过滤全对或全错的无效样本,优先保留具备学习空间的样本,降低训练方差,减少梯度崩溃问题的发生概率。
工程落地环节,可将分层评估思路拆解为三类可执行策略,适配0.6B参数量模型、200ms以内实时推理的业务要求。第一类策略为分层SFT,适配小模型的轻量化训练需求,该策略采用课程学习式的训练方式,核心遵循先易后难的逻辑,逐步引导模型掌握函数调用能力。具体而言,将样本分为四类并设置对应学习权重:全对样本权重1.0,格式+内容正确但结果错误的灰样本权重0.5,格式正确但内容错误的样本权重0.2,全错样本权重置为0,不纳入核心训练环节。训练节奏贴合课程学习的先易后难原则,分三个阶段推进:第一阶段优先训练格式正确的样本(基础易难度),帮助模型先掌握合规输出的规则;第二阶段加入内容正确的样本(中等难度),帮助模型掌握函数调用的核心逻辑;最终阶段采用全对样本完成精调(较高难度),提升训练过程的稳定性。
第二类策略为灰样本价值挖掘,提升样本利用率。在风控场景中,可将格式合规、特征匹配但标签未命中的样本定义为灰样本,按0.3的权重加入训练,可扩充训练样本规模,提升模型的坏样本召回率,无需额外增加大量的标注成本投入。
第三类策略为难样本取舍,保证小模型的核心性能。超小模型的容量有限,为适配少量难样本的训练,可能拉低易样本、中难度样本的表现。可设置可量化的难样本判断标准,连续3轮训练,模型对该样本的预测准确率均低于30%,且无新增特征可补充的样本,可做舍弃处理,转由人工兜底。让模型聚焦易样本与中难度样本,将对应场景的性能优化到较高水平,更易获取符合业务需求的整体效果。
效果验证数据显示,论文实验中,加入SimRL的0.6B STAR模型,在BFCL与ACEBench两个函数调用基准测试中,达到同期1B以下开源模型中的最优水平,效果超过部分更大参数量的开源模型。业务落地中,该方法可在满足200ms以内出结果的要求下,提升函数调用的准确率,降低训练过程的损失波动幅度,减少梯度崩溃问题的发生。
总结来看,SimRL的核心设计,是将非对即错的绝对判断,转化为适配小模型学习特点的梯度化分层评估,通过精细化的打分规则,挖掘现有样本的价值,帮助超小模型在有限的资源条件下,优化核心业务性能。该思路可拓展应用至多模态模型的训练场景。
参考文献
Ni, J., Pu, J., Yang, Z., Luo, J., & Hu, C. (2026). STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models. arXiv preprint arXiv:2602.03022. https://arxiv.org/abs/2602.03022