1 min read

LLM：SimRL（3）质量评估与落地优化

2026/02/03

本次分享的核心为SimRL的分层评估逻辑与工程落地细节。SimRL全称Similarity-guided Reinforcement Learning，是ICLR 2026收录的STAR框架中的两大核心模块之一，与CKD约束知识蒸馏配合，用于解决超小函数调用模型的强化学习训练问题，本次内容覆盖技术核心逻辑、论文原生设计、工程落地方法三个模块。

技术的核心应用背景，来自传统强化学习二元奖励机制的固有局限。二元奖励机制多采用非对即错的判断规则，通常仅在样本符合所有约束条件时，可获取reward=1的正奖励，存在不符合项时多将奖励置为0。该机制易引发两类核心问题，一是优质正样本数量通常有限，尤其在风控场景中，优质正样本占比普遍偏低，易造成奖励信号稀疏，模型难以获取充足的学习信号；二是训练过程中损失函数波动幅度较大，易出现梯度异常，甚至梯度崩溃的问题，对模型训练效果产生负面影响。SimRL的核心设计思路，是将二元的非对即错判断，转化为多维度、梯度化的分层打分，利用未符合全部约束但部分内容达标的灰样本，为模型提供连续的学习信号。

论文的原生设计分为两大核心模块，分别是分层评估机制，以及支撑该机制的相似性计算。分层评估机制包含两个层面的设计，第一个层面是评估维度的分层，将模型输出拆分为格式、内容、结果三个递进维度，每个维度设置独立的评估标准与奖励权重。格式层为基础维度，校验输出的规范程度，包括JSON结构完整性、函数名是否在可用集合内、是否采用规范的标签包裹，基础权重0.4，该维度达标通常是获取后续维度奖励的基础前提；内容层为核心维度，校验输出与标注样本的匹配程度，包括函数名匹配度、参数完整性、语义等价性，基础权重0.6；结果层为最终维度，校验输出对用户问题的解决程度，也就是任务完成度，基础权重1.0。总奖励为三个维度的分值叠加，可根据业务场景调整权重设置。

第二个层面是每个维度内的正确程度梯度分层，也就是梯度打分规则。以内容层为例，按输出与标注样本的相似程度，设置梯度分值，语义高度等价可获取满分，函数正确+核心参数完整可获取该维度60%的分值，函数正确+次要参数缺失可获取该维度30%的分值，函数名不匹配、语义严重偏离时该维度分值通常置为0。该设计可让未获取全量奖励的样本，也能提供对应的学习信号，帮助模型明确优化方向。

相似性计算是分层评估的核心支撑工具，论文采用AST语法树解析+语义嵌入相似度结合的计算方式。格式层通过AST语法树解析，校验输出语法结构与规范的匹配度；内容层将输出与标注样本转化为语义嵌入，计算余弦相似度，完成匹配度校验；结果层通过任务完成度的匹配度校验，完成分值计算。该方式通过客观标准完成不同维度的正确程度判断，降低人工规则带来的主观性偏差。论文采用GRPO（Group Relative Policy Optimization，组相对策略优化）作为强化学习算法，配合分层奖励机制，过滤全对或全错的无效样本，优先保留具备学习空间的样本，降低训练方差，减少梯度崩溃问题的发生概率。

工程落地环节，可将分层评估思路拆解为三类可执行策略，适配0.6B参数量模型、200ms以内实时推理的业务要求。第一类策略为分层SFT，适配小模型的轻量化训练需求，该策略采用课程学习式的训练方式，核心遵循先易后难的逻辑，逐步引导模型掌握函数调用能力。具体而言，将样本分为四类并设置对应学习权重：全对样本权重1.0，格式+内容正确但结果错误的灰样本权重0.5，格式正确但内容错误的样本权重0.2，全错样本权重置为0，不纳入核心训练环节。训练节奏贴合课程学习的先易后难原则，分三个阶段推进：第一阶段优先训练格式正确的样本（基础易难度），帮助模型先掌握合规输出的规则；第二阶段加入内容正确的样本（中等难度），帮助模型掌握函数调用的核心逻辑；最终阶段采用全对样本完成精调（较高难度），提升训练过程的稳定性。

第二类策略为灰样本价值挖掘，提升样本利用率。在风控场景中，可将格式合规、特征匹配但标签未命中的样本定义为灰样本，按0.3的权重加入训练，可扩充训练样本规模，提升模型的坏样本召回率，无需额外增加大量的标注成本投入。

第三类策略为难样本取舍，保证小模型的核心性能。超小模型的容量有限，为适配少量难样本的训练，可能拉低易样本、中难度样本的表现。可设置可量化的难样本判断标准，连续3轮训练，模型对该样本的预测准确率均低于30%，且无新增特征可补充的样本，可做舍弃处理，转由人工兜底。让模型聚焦易样本与中难度样本，将对应场景的性能优化到较高水平，更易获取符合业务需求的整体效果。

效果验证数据显示，论文实验中，加入SimRL的0.6B STAR模型，在BFCL与ACEBench两个函数调用基准测试中，达到同期1B以下开源模型中的最优水平，效果超过部分更大参数量的开源模型。业务落地中，该方法可在满足200ms以内出结果的要求下，提升函数调用的准确率，降低训练过程的损失波动幅度，减少梯度崩溃问题的发生。

总结来看，SimRL的核心设计，是将非对即错的绝对判断，转化为适配小模型学习特点的梯度化分层评估，通过精细化的打分规则，挖掘现有样本的价值，帮助超小模型在有限的资源条件下，优化核心业务性能。该思路可拓展应用至多模态模型的训练场景。

参考文献

Ni, J., Pu, J., Yang, Z., Luo, J., & Hu, C. (2026). STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models. arXiv preprint arXiv:2602.03022. https://arxiv.org/abs/2602.03022

LLM：SimRL（3）质量评估与落地优化

LLM 系列导航

参考文献

LLM 系列导航