1 min read

LLM:Workflow 与 Context 职责分离——AI 系统稳定性的工程化定论

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:长会话体验差异的拆解——Claude Code与OpenClaw上下文管理策略对比 2026-04-08

一、这套想法从哪来

两拨人的实践,最后指向同一个结论。

一拨是达摩院李瑞博,他提出用 workflow 和 context 两个变量来分 Agent 场景,搭出了理论框架。另一拨是开发社区,踩了一堆坑后总结出落地原则——脚本干脚本的事,模型干模型的事。

两拨人说的其实是一回事:Workflow = 确定性逻辑 → 交给工程/脚本,Context = 推理判断 → 交给大模型。

二、职责边界怎么划

Workflow 管什么

顺序执行、条件分支、数据拼接、接口调用、数据清洗、特征计算——这些逻辑能写死的就写死。脚本的优势在于:没有幻觉、执行速度快、Token 消耗低。

开发社区的实践者总结过:大模型只做脚本和编程做不到的事,剩下程序本来就能做的,用程序做更精确可控、速度更快、成本更低。

Context 管什么

意图理解、多因素推理、模糊场景决策、风险定性——这些是代码无法完成的活儿,只能交给模型。

三、四种情况怎么优化

当 Workflow 和 Context 的确定程度不同时,优化的策略也不同。Workflow 和 Context 都确定时,适合纯脚本或 RPA,AI 打个辅助就行。Workflow 确定但 Context 不确定时,需要先把数据封装好,让模型只做最后判断。Workflow 不确定但 Context 确定时,用沙箱把工具集限制住。两者都不确定时,通用 Agent 配合强监控和止损线。

四、Sub Agent 的坑与解

让模型自己调 5~6 个工具、走 9~10 个步骤,结果就是不受控,输出千奇百怪。

改法很简单:用户信息预先打成宽表,工程侧把数据拼好;模型只干一件事——读表,做判断;数据处理归工程,逻辑推理归模型。

核心发现是,降步骤数比优化 prompt 更管用。让短跑选手专注跑步,别让他一边跑一边跨栏递水。

五、权限给的越大,翻车越惨

有人把系统权限完全交给 AI,结果 AI 一个失误,整个系统崩了。教训很直白:权限越小越稳,脚本能干的绝不交给 Agent,别指望让模型包办一切。

六、一句话

先工程化,再智能化。确定性流程交给脚本,模型只做最终判断。步骤越少、权限越小,系统越稳。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
56 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
57 LLM:OpenClaw 一个月观察 2026-04-07
58 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:长会话体验差异的拆解——Claude Code与OpenClaw上下文管理策略对比 2026-04-08