1 min read

LLM:Harness Engineering——大模型Agent工程迭代

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22

一、核心工程结论

在大模型Agent的Harness工程化迭代中,长期记忆是第一优先级迭代点,工具集为第二优先级,中间件为补充优化项,系统提示词仅做配套适配。该结论源自《Agentic Harness Engineering》论文的消融实验验证,可直接指导我们各类Agent项目的落地研发,对风控场景、传统机器学习场景的智能化交互与自动化执行均具备普适性价值。

二、三大核心组件:定义+适用范围+通用落地实例

1. 工具集(Tool Set)

标准定义:Agent与外部系统交互的原子化可执行能力单元,由工具描述+工具实现代码构成,是Agent所有操作的唯一执行入口,属于执行层能力。

适用范围:所有需要与业务系统、数据、接口交互的基础操作,解决Agent"能不能干活、能干哪些活"的问题。

通用业务实例:

第一,数据查询工具:查询业务记录、账户信息、数据集状态。

第二,执行操作工具:运行脚本、调用接口、处理文件、执行命令。

第三,特征处理工具:特征抽取、数据校验、格式转换、指标计算。

第四,流程操作工具:任务调度、状态更新、结果回写、工单处理。

2. 中间件(Middleware)

标准定义:挂载在Agent执行流程中的钩子/拦截器,在模型推理、工具调用的前后插入管控逻辑,不直接执行业务操作,属于过程管控层。

适用范围:执行流程监控、风险预警、违规操作拦截、上下文管理,解决Agent"干活规不规范、会不会踩坑"的问题。

通用业务实例:

第一,流程校验中间件:确保执行步骤合规、不跳过关键校验环节。

第二,异常监控中间件:识别重复操作、死循环推理、超时任务并自动告警。

第三,风险拦截中间件:检测高危操作、非法指令、越权行为并实时阻断。

第四,上下文管理中间件:精简推理上下文、控制Token消耗、提升推理效率。

3. 长期记忆(Long-Term Memory)

标准定义:跨任务、跨会话持久化存储的结构化工程经验与业务知识,包含最佳实践、失败教训、边界规则、典型案例,属于核心知识层。

适用范围:全场景通用的业务经验沉淀,跨任务、跨模型可迁移复用,解决Agent"会不会聪明干活、不重复踩坑"的问题。

通用业务实例:

第一,经验教训记忆:历史任务踩坑点、典型错误模式、问题根因总结。

第二,最佳实践记忆:标准处理流程、高效解决方案、成熟执行范式。

第三,规则边界记忆:业务禁忌、合规红线、系统约束、资源限制。

第四,方法沉淀记忆:特征工程经验、模型调试技巧、任务优化方法论。

三、迭代优先级的底层逻辑(论文数据+工程价值)

1. 长期记忆(+5.6%,最高增益)

沉淀的是可迁移、可复用的核心知识资产,直接解决Agent"重复犯错、低级失误"的根本问题,跨场景、跨模型均有效,是提升Agent稳定性与效果的核心抓手。

2. 工具集(+3.3%,次高增益)

提供标准化执行能力,让Agent能够可靠地完成任务操作,但只解决"能干",不解决"干得稳、干得对",因此优先级次于经验沉淀。

3. 中间件(+2.2%,补充增益)

属于过程纠偏与防护能力,必须依托记忆知识与工具能力才能发挥价值,没有核心经验与执行能力支撑,管控无法单独带来显著收益。

4. 系统提示词(-2.3%,负增益)

仅为文本化策略指令,在无记忆、工具、中间件支撑的情况下,属于"纸上谈兵",单独投入资源优化反而会降低Agent整体效果。

四、团队落地执行方法论

第一阶段:优先沉淀长期记忆。梳理业务经验、历史教训、最佳实践、规则边界,形成结构化、可复用的知识体系。

第二阶段:搭建标准化工具集。封装通用原子能力,统一接口规范与调用逻辑,夯实Agent的基础执行能力。

第三阶段:补充中间件管控能力。针对高频错误、流程风险、异常场景搭建监控与拦截机制,提升容错性与安全性。

第四阶段:极简优化提示词。仅做指令适配与格式对齐,不投入过多资源反复调Prompt,避免无效迭代。

参考文献

Lin, J., Liu, S., Pan, C., Lin, L., Dou, S., Huang, X., Yan, H., Han, Z., & Gui, T. (2026). Agentic harness engineering: Observability-driven automatic evolution of coding-agent harnesses (arXiv preprint arXiv:2604.25850). https://arxiv.org/abs/2604.25850

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22