1 min read

LLM:SimRL(3)质量评估与落地优化

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:低数据场景的决策树生成 2025-08-03
15 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
16 LLM:表格数据特征工程:(1)核心方法与框架 2025-08-03
17 LLM:表格数据特征工程:(2)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

本次分享的核心为SimRL的分层评估逻辑与工程落地细节。SimRL全称Similarity-guided Reinforcement Learning,是ICLR 2026收录的STAR框架中的两大核心模块之一,与CKD约束知识蒸馏配合,用于解决超小函数调用模型的强化学习训练问题,本次内容覆盖技术核心逻辑、论文原生设计、工程落地方法三个模块。

技术的核心应用背景,来自传统强化学习二元奖励机制的固有局限。二元奖励机制多采用非对即错的判断规则,通常仅在样本符合所有约束条件时,可获取reward=1的正奖励,存在不符合项时多将奖励置为0。该机制易引发两类核心问题,一是优质正样本数量通常有限,尤其在风控场景中,优质正样本占比普遍偏低,易造成奖励信号稀疏,模型难以获取充足的学习信号;二是训练过程中损失函数波动幅度较大,易出现梯度异常,甚至梯度崩溃的问题,对模型训练效果产生负面影响。SimRL的核心设计思路,是将二元的非对即错判断,转化为多维度、梯度化的分层打分,利用未符合全部约束但部分内容达标的灰样本,为模型提供连续的学习信号。

论文的原生设计分为两大核心模块,分别是分层评估机制,以及支撑该机制的相似性计算。分层评估机制包含两个层面的设计,第一个层面是评估维度的分层,将模型输出拆分为格式、内容、结果三个递进维度,每个维度设置独立的评估标准与奖励权重。格式层为基础维度,校验输出的规范程度,包括JSON结构完整性、函数名是否在可用集合内、是否采用规范的标签包裹,基础权重0.4,该维度达标通常是获取后续维度奖励的基础前提;内容层为核心维度,校验输出与标注样本的匹配程度,包括函数名匹配度、参数完整性、语义等价性,基础权重0.6;结果层为最终维度,校验输出对用户问题的解决程度,也就是任务完成度,基础权重1.0。总奖励为三个维度的分值叠加,可根据业务场景调整权重设置。

第二个层面是每个维度内的正确程度梯度分层,也就是梯度打分规则。以内容层为例,按输出与标注样本的相似程度,设置梯度分值,语义高度等价可获取满分,函数正确+核心参数完整可获取该维度60%的分值,函数正确+次要参数缺失可获取该维度30%的分值,函数名不匹配、语义严重偏离时该维度分值通常置为0。该设计可让未获取全量奖励的样本,也能提供对应的学习信号,帮助模型明确优化方向。

相似性计算是分层评估的核心支撑工具,论文采用AST语法树解析+语义嵌入相似度结合的计算方式。格式层通过AST语法树解析,校验输出语法结构与规范的匹配度;内容层将输出与标注样本转化为语义嵌入,计算余弦相似度,完成匹配度校验;结果层通过任务完成度的匹配度校验,完成分值计算。该方式通过客观标准完成不同维度的正确程度判断,降低人工规则带来的主观性偏差。论文采用GRPO(Group Relative Policy Optimization,组相对策略优化)作为强化学习算法,配合分层奖励机制,过滤全对或全错的无效样本,优先保留具备学习空间的样本,降低训练方差,减少梯度崩溃问题的发生概率。

工程落地环节,可将分层评估思路拆解为三类可执行策略,适配0.6B参数量模型、200ms以内实时推理的业务要求。第一类策略为分层SFT,适配小模型的轻量化训练需求,该策略采用课程学习式的训练方式,核心遵循先易后难的逻辑,逐步引导模型掌握函数调用能力。具体而言,将样本分为四类并设置对应学习权重:全对样本权重1.0,格式+内容正确但结果错误的灰样本权重0.5,格式正确但内容错误的样本权重0.2,全错样本权重置为0,不纳入核心训练环节。训练节奏贴合课程学习的先易后难原则,分三个阶段推进:第一阶段优先训练格式正确的样本(基础易难度),帮助模型先掌握合规输出的规则;第二阶段加入内容正确的样本(中等难度),帮助模型掌握函数调用的核心逻辑;最终阶段采用全对样本完成精调(较高难度),提升训练过程的稳定性。

第二类策略为灰样本价值挖掘,提升样本利用率。在风控场景中,可将格式合规、特征匹配但标签未命中的样本定义为灰样本,按0.3的权重加入训练,可扩充训练样本规模,提升模型的坏样本召回率,无需额外增加大量的标注成本投入。

第三类策略为难样本取舍,保证小模型的核心性能。超小模型的容量有限,为适配少量难样本的训练,可能拉低易样本、中难度样本的表现。可设置可量化的难样本判断标准,连续3轮训练,模型对该样本的预测准确率均低于30%,且无新增特征可补充的样本,可做舍弃处理,转由人工兜底。让模型聚焦易样本与中难度样本,将对应场景的性能优化到较高水平,更易获取符合业务需求的整体效果。

效果验证数据显示,论文实验中,加入SimRL的0.6B STAR模型,在BFCL与ACEBench两个函数调用基准测试中,达到同期1B以下开源模型中的最优水平,效果超过部分更大参数量的开源模型。业务落地中,该方法可在满足200ms以内出结果的要求下,提升函数调用的准确率,降低训练过程的损失波动幅度,减少梯度崩溃问题的发生。

总结来看,SimRL的核心设计,是将非对即错的绝对判断,转化为适配小模型学习特点的梯度化分层评估,通过精细化的打分规则,挖掘现有样本的价值,帮助超小模型在有限的资源条件下,优化核心业务性能。该思路可拓展应用至多模态模型的训练场景。

参考文献

Ni, J., Pu, J., Yang, Z., Luo, J., & Hu, C. (2026). STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models. arXiv preprint arXiv:2602.03022. https://arxiv.org/abs/2602.03022

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:低数据场景的决策树生成 2025-08-03
15 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
16 LLM:表格数据特征工程:(1)核心方法与框架 2025-08-03
17 LLM:表格数据特征工程:(2)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03