1 min read

LLM:Agent 逻辑与应用场景

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:从少样本到长尾覆盖:零样本LLM的适用边界与正确姿势 2025-11-13
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
52 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
53 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
54 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
65 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
66 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
67 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
68 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17
69 LLM:Claude Skill:Anthropic 用软件工程思想重构 AI 开发 2026-05-19
70 LLM:从少样本到长尾覆盖:基础模型如何攻克长尾反欺诈难题 2026-05-25

Agent 的核心由两个变量决定:控制任务走向的workflow(工作流)、控制内容生成的context(上下文)

这套想法来自两处实践的交汇。一拨是达摩院李瑞博,他提出用 workflow 和 context 两个变量来分 Agent 场景,搭出了理论框架。另一拨是开发社区,踩了一堆坑后总结出落地原则——脚本干脚本的事,模型干模型的事。两拨人说的其实是一回事:Workflow = 确定性逻辑 → 交给工程/脚本,Context = 推理判断 → 交给大模型。

据此可分为 4 类典型场景(达摩院李瑞博,25.09.23):

  1. workflow 与 context 均确定:该场景易实现自动化,类似于传统 RPA(机器人流程自动化),常见应用如发票处理、表单填报等。在此类场景中,AI 主要起 “粘合剂” 作用,发挥空间相对有限。

  2. workflow 确定但 context 不确定:此类场景需要借助语义理解进行信息补全,例如客服问答、合同解析等任务。完成这些任务依赖外部检索、知识图谱等方式来填补信息缺口。

  3. workflow 不确定但 context 确定:在这种情况下,Agent 需要自主规划任务执行路径,典型应用包括市场分析报告生成、个性化推荐等。End-to-End RL Agent(强化学习 Agent)在此类任务中表现出色。

  4. workflow 与 context 均不确定:这是最复杂的场景,Agent 需要具备推理和探索能力,适用于创新方案设计、跨部门信息收集等任务。此类场景依赖通用型 Agent,关键在于配备丰富工具,特别是开放编程能力,如克隆修改 Github 代码等操作。

高不确定性环境的应对方案

当 Agent 处于高不确定性环境时,容易出现 “幻觉(hallucination)” 或陷入无限循环,需要借助以下工具和方法应对(达摩院李瑞博,25.09.23):

  • 动态规划与探索:允许 Agent 自主分解任务、迭代执行路径。
  • 上下文补全:通过检索、搜索、知识整合等方式填充未知信息。
  • 执行力提升:重点利用编程工具,支持代码的生成、修改和运行。
  • 多代理协作:模拟 “团队分工” 模式,提高任务执行的鲁棒性。

职责边界怎么划

Workflow 管什么

顺序执行、条件分支、数据拼接、接口调用、数据清洗、特征计算——这些逻辑能写死的就写死。脚本的优势在于:没有幻觉、执行速度快、Token 消耗低。

开发社区的实践者总结过:大模型只做脚本和编程做不到的事,剩下程序本来就能做的,用程序做更精确可控、速度更快、成本更低。

Context 管什么

意图理解、多因素推理、模糊场景决策、风险定性——这些是代码无法完成的活儿,只能交给模型。

Sub Agent 步骤数优化实践

Sub Agent(受主控 Agent 调用的子代理)的优化案例,属于 “workflow 与 context 均确定” 这一类场景。

原方案让大模型自主调用 56 个工具,走 910 个步骤,导致 Sub Agent 不受控、输出千奇百怪。优化后的方案是:

  1. 预先封装用户信息:将所有用户信息预先封装成用户画像宽表,由工程侧完成数据拼接与预处理 → context 变得确定
  2. 降低决策复杂度:让大模型只做一件事——读宽表,做定性判断 → workflow 变得确定
  3. 职责分离:把数据处理(工程化)和逻辑推理(模型)分开,前者交给工程,后者交给模型
  4. 核心优化原则:降低 agent 操作步骤数,比提升 prompt 质量更有效

通过将一个原本复杂的任务(workflow 和 context 都有不确定性)改造为明确的单步任务,Agent 的输出稳定性大幅提升。这个发现对复杂任务优化很有启发:让大模型专注它擅长的定性判断,把数据处理提前做好,这样效率和准确性都能提升不少。就像让短跑选手专注跑步,别让他一边跑一边跨栏递水。

工程化落地的风险警示

有人把系统权限完全交给 AI,结果 AI 一个失误,整个系统崩了。教训很直白:权限越小越稳,脚本能干的绝不交给 Agent,别指望让模型包办一切。

一句话

先工程化,再智能化。确定性流程交给脚本,模型只做最终判断。步骤越少、权限越小,系统越稳。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
28 LLM:近似on-policy数据抗遗忘 2025-10-21
29 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
30 LLM:幻觉治理 2025-10-28
31 LLM:从少样本到长尾覆盖:零样本LLM的适用边界与正确姿势 2025-11-13
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:跨难度泛化的局限与量化 2025-11-26
37 LLM:重复提示词解锁非推理性能上限 2025-12-17
38 LLM:用失败样本提升指令遵循能力 2025-12-29
39 LLM:概率引导的高价值信号筛选 2026-01-14
40 LLM:低成本安全检测的级联方案 2026-01-16
41 LLM:定性编码的假阳性解决方案 2026-01-16
42 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
43 LLM:先验偏见(5)工程化方案 2026-01-22
44 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
45 LLM:SimRL(1)分层评估 2026-02-03
46 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
47 LLM:SimRL(3)质量评估与落地优化 2026-02-03
48 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
49 LLM:OpenClaw 消息渠道配置实践 2026-03-22
50 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
51 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
52 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
53 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
54 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
65 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
66 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
67 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
68 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17
69 LLM:Claude Skill:Anthropic 用软件工程思想重构 AI 开发 2026-05-19
70 LLM:从少样本到长尾覆盖:基础模型如何攻克长尾反欺诈难题 2026-05-25