AI Agent 的发展经历了从"能跑"到"能治、可控、可规模化"的演进。在这一过程中,Harness Engineering 作为管理 Agent 外循环的工程体系,成为解决 Agent 不可控、不可靠问题的关键。
一、行业演进的五个阶段
大模型落地的路径非常清晰:提示工程 → Function Call 工具调用 → 上下文工程 → Agent → Harness Engineering 约束工程
AI Agent 的发展可以划分为五个阶段:
生成阶段(2022-2023):ChatGPT 出现,核心是 Prompt Engineering,模型能说不能做。
连接阶段(2023-2024):插件、Function Calling 出现,模型能调用工具,但连接混乱、难扩展。
推理阶段(2024):o1 等推理模型登场,MCP 协议统一工具连接,Context Engineering 兴起。
行动阶段(2025):Agent 爆发,但长任务易崩溃、失忆、乱输出、累积垃圾代码。
治理阶段(2026):Harness Engineering 正式成型,解决 Agent 不可控、不可靠问题。
早期大家关注"模型能做什么",但真正落地时会发现:Agent 能力越强,越容易出现长任务失忆、上下文混乱、输出不可控、目标漂移等问题。
约束工程的核心价值,就是给大模型建立可控、可信、可复现的运行边界,让模型从"能用"变成"可靠可用"。
二、Heartbeat:Agent 内置的定时任务机制
Heartbeat 是 Agent 体系中很实用、却少被系统讲解的能力,本质是 Agent 原生的定时任务调度。
2.1 对标传统方案
类似 Linux Crontab、Airflow 定时调度
2.2 配置方式
通过 Markdown + 自然语言定义周期任务
2.3 核心能力
自动读取邮件与日历信息、生成摘要、冲突提醒;定时检查任务状态;将聊天记录存入记忆;自动执行复盘
2.4 优势
自然语言配置更灵活,无需系统级权限,易修改、易维护
2.5 现存问题
自然语言理解存在偏差,任务可能卡顿;报错后无自动修复;高频运行消耗 token 较多
它把传统定时任务从"代码配置"升级为"自然语言定义",是 AI 自动化与提效的关键基础能力。
三、Harness 的核心定义
Harness 是 Agent 的外循环控制系统,负责以下核心功能:
- 状态管理:跨会话不失忆
- 任务分解:将复杂任务拆解为可执行的子任务
- 工具编排:协调多种工具的调用顺序
- 结果验证:确保 Agent 输出符合预期
- 反馈闭环:建立有效的修正机制
- 熵增抑制:清理冗余代码、过期文档
- 人机交接:定义何时自主、何时交由人类处理
评估 Agent 能力,等于模型能力加上 Harness 能力。模型能力决定了 Agent 能做什么,而 Harness 能力决定了 Agent 能可靠地完成什么。
四、Harness 要解决的五大根本问题
状态持久:跨会话不失忆,用外部工件(文件、清单)存进度。Agent 在长任务执行过程中,需要能够持久化当前状态,避免因上下文耗尽而丢失进度。
目标一致:防止任务漂移,明确"什么叫完成"。Agent 需要清晰的完成标准,避免在执行过程中偏离原始目标。
行动可验证:不让模型自己判卷,用外部校验机制。Agent 不应自行判断输出是否正确,而应依赖外部验证机制。
熵增抑制:清理 AI 冗余代码、过期文档,保证长期稳定。随着 Agent 不断执行任务,系统会积累大量冗余信息和过时内容,需要定期清理以维持系统稳定性。
人机边界:定义何时自主、何时交人,避免失控。需要明确划定 Agent 的自主权限范围,在关键节点引入人类判断。
五、Harness 六大核心构件
持久状态面:用 feature list、进度文件实现跨会话续航。通过外部存储系统维护 Agent 的执行状态,确保长周期任务的可连续性。
任务分解与规划:Planner、Generator、Evaluator 三角色拆分长任务。Planner 负责规划执行路径,Generator 负责生成具体行动,Evaluator 负责验证结果。
反馈闭环:前馈引导(Guides)加上后置感知(Sensors),双层校验。前馈引导在行动执行前提供方向指导,后置感知在行动执行后收集反馈信息。
可感知性:让 Agent 能"看见"日志、指标、架构、文档。Agent 需要能够访问系统状态信息,以便做出更准确的决策。
工具中介:基于 MCP 协议,用代码间接调用工具,不挤占上下文。通过 MCP 统一管理工具调用,避免工具调用占用过多上下文空间。
熵控系统:定期重构、文档对齐、架构强约束,防系统腐化。建立系统性的维护机制,防止系统随时间推移而逐渐退化。
六、范式迁移:从指令驱动到意图驱动
过去,人给精确指令,Agent 按指令执行。这种模式要求人类对任务细节有完整了解,且指令必须精确无误。
现在,人给目标,Agent 自主执行。人类只需描述期望结果,Agent 负责规划实现路径。
Harness 就是意图时代的"操作系统层",负责任务治理、安全、资源调度。它定义了 Agent 执行任务的框架,确保在追求目标的过程中保持可控性。
七、关键定位
Harness 不是长 Prompt,不是框架,是工程学科。Prompt 是输入形式,框架是代码结构,而 Harness 是一套完整的工程体系,包括状态管理、验证机制、反馈系统等多个维度。
Harness 是 AgentOS 的用户态实现,负责任务治理;AgentOS 负责底层调度。两者分工明确,共同支撑 Agent 的可靠运行。
一个反直觉的结论是:模型越强,越需要 Harness,而非越不需要。强大模型意味着更强的自主行动能力,如果缺乏有效的约束机制,失控风险也更高。
八、落地关键:从 AI at Work 到 AI at Product
在实际项目推进中,有一个非常现实的导向差异,直接决定项目能否立项、能否拿到资源:
8.1 AI at Work(内部提效)
提升个人/团队效率,属于工具化能力;形式多为脚本、Skill、小自动化模块;价值难以对外呈现,不易成为重点项目
8.2 AI at Product(产品化智能体)
标准化、可复制、可跨团队推广;可包装为数字员工、智能运营、自动化风控等产品形态;可清晰讲清业务价值、降本目标、用户体验提升;更容易立项、拿资源、规模化落地
真正能落地的大模型项目,一定是产品化思维,而非单纯提效思维。
九、构建技术壁垒:不要只停留在"写提示词"
很多人对大模型应用的理解停留在"写 Prompt",但真正有壁垒的落地,通常具备以下特征:
9.1 复杂 Skill 架构
融合代码、SQL、调度与监控逻辑
9.2 大模型 + 小模型协同
互补短板
9.3 模型技术深化
LoRA 微调、模型蒸馏、奖励函数设计
9.4 系统级工程
上下文压缩、状态管理、长期记忆
9.5 端到端自动化
样本 → 特征 → 训练 → 部署 → 解读闭环
技术深度要做在系统内部,让方案更复杂、更可靠、更难替代,而不是停留在简单提示词层面。
十、行业结论
Harness Engineering 将成为 AI 工程基石。随着 Agent 应用的普及,如何确保 Agent 可靠、可控地运行,将成为工程实践的核心问题。
竞争壁垒从模型迁移到 Harness 设计。当模型能力趋于同质化时,Harness 设计的优劣将成为产品差异化的关键。
工程师角色从写代码变为设计自治系统、构建反馈与约束。未来的 AI 工程师需要具备系统思维,能够设计复杂的反馈与约束机制。
大模型已经越过"炫技阶段",正式进入工程化、约束化、产品化的深水区。
Heartbeat 提供自动化定时能力,让 Agent 能主动运行;Harness 约束工程提供可控性保障,让 Agent 稳定不漂移;产品化思维决定项目能否立项与规模化;技术深度决定长期壁垒与不可替代性。
未来大模型落地的核心竞争力,不再是谁的模型更大,而是谁更可控、更稳定、更低成本、更能解决真实业务问题。
未来是:Agent 自主干活,Harness 确保靠谱。Agent 负责执行具体任务,Harness 负责治理与保障,两者协同实现可靠的人工智能应用。
参考文献
[1] lencx. 深度解析:Harness Engineering[EB/OL]. (2026-04-03)[2026-04-12]. https://mp.weixin.qq.com/s/-mgf8K7XZrTKoD0pMOIn3w.
[2] Anthropic. Building Effective Agents[EB/OL]. (2024-12)[2026-04-12]. https://www.anthropic.com/engineering/building-effective-agents.
[3] Anthropic. Effective context engineering for AI agents[EB/OL]. (2025)[2026-04-12]. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents.
[4] Hashimoto M. My AI Adoption Journey[EB/OL]. (2026-02-05)[2026-04-12]. https://mitchellh.com/writing/my-ai-adoption-journey.
[5] OpenAI. Harness Engineering: Leveraging Codex in an Agent-First World[EB/OL]. (2026-02-11)[2026-04-12]. https://openai.com/index/harness-engineering.
[6] Fowler M. Harness Engineering - first thoughts[EB/OL]. (2026-04)[2026-04-12]. https://martinfowler.com/articles/exploring-gen-ai/harness-engineering-memo.html.
[7] Anthropic. Demystifying evals for AI agents[EB/OL]. (2026)[2026-04-12]. https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents.