1 min read

LLM:SimRL(1)分层评估

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03

在超小型函数调用模型的训练中,传统强化学习的非对即错式奖励机制,往往难以适配小模型有限的容量,导致训练效率低下、输出易偏离任务目标。STAR框架中提出的SimRL(Similarity-guided Reinforcement Learning),以分层评估为核心设计,为小模型提供了更贴合训练需求的强化学习方案,其核心逻辑可通过分层拆解清晰理解,相关技术细节来自论文《STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models》(Ni, Pu, Yang, Luo, & Hu, 2026)。

SimRL的核心价值,在于解决传统强化学习二元奖励(0/1分)的局限,通过分层打分形成连续、细粒度的奖励信号,引导小模型逐步优化函数调用策略,同时避免训练过程中出现梯度异常、模式崩溃等问题。这种分层设计并非简单的步骤拆分,而是围绕输出有效性构建的多维度、梯度化评估体系,既保证评估的全面性,又贴合小模型循序渐进的学习特点。

SimRL的分层评估主要分为两个核心层面,两个层面相互衔接、层层递进,构成完整的奖励计算逻辑,同时配套对应的训练操作流程,确保奖励信号能有效转化为模型性能的提升。

第一个层面是评估维度的分层,按“格式→内容→结果”的顺序逐步深入,每个维度对应明确的评估标准和奖励权重,形成基础到核心、形式到实效的评估链条。格式层作为最基础的评估维度,主要检查小模型生成的函数调用输出是否符合工具调用规范,包括是否使用正确标签包裹、JSON结构是否完整、函数名是否在指定可用函数集合内,这一维度的奖励占比相对基础,确保输出具备可解析性,为后续评估提供前提。内容层是评估的核心维度,重点计算模型输出与真实标签或最优教师输出的语义相似度,考量函数匹配度、参数完整性和语义等价性,不追求输出与标准答案的完全一致,而是根据相似程度给予梯度分数。结果层作为最终评估维度,聚焦任务完成度,判断模型的函数调用是否真正解决了用户提出的问题,避免模型出现“格式正确但功能无效”的无效输出,确保训练方向贴合实际任务需求。

第二个层面是正确程度的分层,主要应用于核心的内容评估维度,进一步细化奖励梯度。在内容层评估中,SimRL不采用对或错的绝对判断,而是根据模型输出与标准答案的相似度,划分出不同的正确等级:语义完全等价的输出获得满分,函数正确且主要参数完整的输出获得中等分数,函数正确但次要参数缺失的输出获得基础分数,函数错误或语义严重偏离的输出则无分数。这种梯度化的分数设计,为小模型提供了清晰的进步方向,即使输出未达到最优,也能通过部分分数获得学习反馈,避免因微小瑕疵被全盘否定而丧失学习动力。

基于这样的分层评估逻辑,SimRL的操作流程也围绕分层奖励的计算与优化展开,整体简洁且适配小模型训练需求。首先进行前置准备,确定输入内容(小模型输出、真实标签、可用函数集合),并采用GRPO(Group Relative Policy Optimization)作为强化学习算法,简化训练流程并提升稳定性。随后按评估维度分层计算奖励,分别得出格式奖励、内容奖励和结果奖励,将三者叠加得到总奖励,其中内容奖励的计算结合AST解析与语义匹配方法,兼顾结构正确性和语义等价性。最后进行策略优化,对每组训练样本的奖励进行标准化处理,计算优势函数,过滤掉全对或全错的无效样本,通过包含裁剪和KL正则项的目标函数,控制策略更新幅度,避免模型跑偏,同时结合STAR框架的课程训练模式,分阶段提升小模型性能。

从原理来看,SimRL的分层设计本质上是对小模型训练需求的适配与优化。小模型的容量有限,难以承受复杂的训练逻辑,分层评估简化了奖励计算的复杂度,同时连续的梯度奖励信号有效解决了传统二元奖励学习信号缺失的问题。此外,分层评估中的格式层与结果层相互约束,避免模型出现“格式合规但功能无效”或“功能正确但无法解析”的问题;正确程度的分层则降低了训练难度,配合GRPO算法和奖励标准化、无效样本过滤等机制,有效避免了梯度爆炸、模式崩溃等训练不稳定性问题,同时减少奖励欺骗风险,确保模型输出既符合规范,又具备实际功能。

总体而言,SimRL以分层评估为核心,通过评估维度与正确程度的双重分层,为超小型函数调用模型提供了细粒度、稳定的奖励信号,配合简洁的操作流程和优化机制,在不增加系统复杂度的前提下,有效提升了小模型的函数调用性能。这种分层设计思路,也为同类小模型的强化学习训练提供了可参考的路径——无需追求复杂的算法设计,通过贴合模型能力的分层逻辑,即可实现训练效率与性能的双重提升,这也是STAR框架能让小模型在函数调用任务中实现性能突破的关键原因之一。

参考文献

Ni, J., Pu, J., Yang, Z., Luo, J., & Hu, C. (2026). STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models. arXiv preprint arXiv:2602.03022. https://arxiv.org/abs/2602.03022

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(2) 2025-09-04
22 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03