LLM：Harness Engineering：AI Agent 的外循环工程体系

AI Agent 的发展经历了从"能跑"到"能治、可控、可规模化"的演进。在这一过程中，Harness Engineering 作为管理 Agent 外循环的工程体系，成为解决 Agent 不可控、不可靠问题的关键。

一、行业演进的五个阶段

大模型落地的路径非常清晰：提示工程 → Function Call 工具调用 → 上下文工程 → Agent → Harness Engineering 约束工程

AI Agent 的发展可以划分为五个阶段：

生成阶段（2022-2023）：ChatGPT 出现，核心是 Prompt Engineering，模型能说不能做。

连接阶段（2023-2024）：插件、Function Calling 出现，模型能调用工具，但连接混乱、难扩展。

推理阶段（2024）：o1 等推理模型登场，MCP 协议统一工具连接，Context Engineering 兴起。

行动阶段（2025）：Agent 爆发，但长任务易崩溃、失忆、乱输出、累积垃圾代码。

治理阶段（2026）：Harness Engineering 正式成型，解决 Agent 不可控、不可靠问题。

早期大家关注"模型能做什么"，但真正落地时会发现：Agent 能力越强，越容易出现长任务失忆、上下文混乱、输出不可控、目标漂移等问题。

约束工程的核心价值，就是给大模型建立可控、可信、可复现的运行边界，让模型从"能用"变成"可靠可用"。

二、Heartbeat：Agent 内置的定时任务机制

Heartbeat 是 Agent 体系中很实用、却少被系统讲解的能力，本质是 Agent 原生的定时任务调度。

2.1 对标传统方案

类似 Linux Crontab、Airflow 定时调度

2.2 配置方式

通过 Markdown + 自然语言定义周期任务

2.3 核心能力

自动读取邮件与日历信息、生成摘要、冲突提醒；定时检查任务状态；将聊天记录存入记忆；自动执行复盘

2.4 优势

自然语言配置更灵活，无需系统级权限，易修改、易维护

2.5 现存问题

自然语言理解存在偏差，任务可能卡顿；报错后无自动修复；高频运行消耗 token 较多

它把传统定时任务从"代码配置"升级为"自然语言定义"，是 AI 自动化与提效的关键基础能力。

三、Harness 的核心定义

Harness 是 Agent 的外循环控制系统，负责以下核心功能：

状态管理：跨会话不失忆
任务分解：将复杂任务拆解为可执行的子任务
工具编排：协调多种工具的调用顺序
结果验证：确保 Agent 输出符合预期
反馈闭环：建立有效的修正机制
熵增抑制：清理冗余代码、过期文档
人机交接：定义何时自主、何时交由人类处理

评估 Agent 能力，等于模型能力加上 Harness 能力。模型能力决定了 Agent 能做什么，而 Harness 能力决定了 Agent 能可靠地完成什么。

四、Harness 要解决的五大根本问题

状态持久：跨会话不失忆，用外部工件（文件、清单）存进度。Agent 在长任务执行过程中，需要能够持久化当前状态，避免因上下文耗尽而丢失进度。

目标一致：防止任务漂移，明确"什么叫完成"。Agent 需要清晰的完成标准，避免在执行过程中偏离原始目标。

行动可验证：不让模型自己判卷，用外部校验机制。Agent 不应自行判断输出是否正确，而应依赖外部验证机制。

熵增抑制：清理 AI 冗余代码、过期文档，保证长期稳定。随着 Agent 不断执行任务，系统会积累大量冗余信息和过时内容，需要定期清理以维持系统稳定性。

人机边界：定义何时自主、何时交人，避免失控。需要明确划定 Agent 的自主权限范围，在关键节点引入人类判断。

五、Harness 六大核心构件

持久状态面：用 feature list、进度文件实现跨会话续航。通过外部存储系统维护 Agent 的执行状态，确保长周期任务的可连续性。

任务分解与规划：Planner、Generator、Evaluator 三角色拆分长任务。Planner 负责规划执行路径，Generator 负责生成具体行动，Evaluator 负责验证结果。

反馈闭环：前馈引导（Guides）加上后置感知（Sensors)，双层校验。前馈引导在行动执行前提供方向指导，后置感知在行动执行后收集反馈信息。

可感知性：让 Agent 能"看见"日志、指标、架构、文档。Agent 需要能够访问系统状态信息，以便做出更准确的决策。

工具中介：基于 MCP 协议，用代码间接调用工具，不挤占上下文。通过 MCP 统一管理工具调用，避免工具调用占用过多上下文空间。

熵控系统：定期重构、文档对齐、架构强约束，防系统腐化。建立系统性的维护机制，防止系统随时间推移而逐渐退化。

六、范式迁移：从指令驱动到意图驱动

过去，人给精确指令，Agent 按指令执行。这种模式要求人类对任务细节有完整了解，且指令必须精确无误。

现在，人给目标，Agent 自主执行。人类只需描述期望结果，Agent 负责规划实现路径。

Harness 就是意图时代的"操作系统层"，负责任务治理、安全、资源调度。它定义了 Agent 执行任务的框架，确保在追求目标的过程中保持可控性。

七、关键定位

Harness 不是长 Prompt，不是框架，是工程学科。Prompt 是输入形式，框架是代码结构，而 Harness 是一套完整的工程体系，包括状态管理、验证机制、反馈系统等多个维度。

Harness 是 AgentOS 的用户态实现，负责任务治理；AgentOS 负责底层调度。两者分工明确，共同支撑 Agent 的可靠运行。

一个反直觉的结论是：模型越强，越需要 Harness，而非越不需要。强大模型意味着更强的自主行动能力，如果缺乏有效的约束机制，失控风险也更高。

八、落地关键：从 AI at Work 到 AI at Product

在实际项目推进中，有一个非常现实的导向差异，直接决定项目能否立项、能否拿到资源：

8.1 AI at Work（内部提效）

提升个人/团队效率，属于工具化能力；形式多为脚本、Skill、小自动化模块；价值难以对外呈现，不易成为重点项目

8.2 AI at Product（产品化智能体）

标准化、可复制、可跨团队推广；可包装为数字员工、智能运营、自动化风控等产品形态；可清晰讲清业务价值、降本目标、用户体验提升；更容易立项、拿资源、规模化落地

真正能落地的大模型项目，一定是产品化思维，而非单纯提效思维。

九、构建技术壁垒：不要只停留在"写提示词"

很多人对大模型应用的理解停留在"写 Prompt"，但真正有壁垒的落地，通常具备以下特征：

9.1 复杂 Skill 架构

融合代码、SQL、调度与监控逻辑

9.2 大模型 + 小模型协同

互补短板

9.3 模型技术深化

LoRA 微调、模型蒸馏、奖励函数设计

9.4 系统级工程

上下文压缩、状态管理、长期记忆

9.5 端到端自动化

样本 → 特征 → 训练 → 部署 → 解读闭环

技术深度要做在系统内部，让方案更复杂、更可靠、更难替代，而不是停留在简单提示词层面。

十、行业结论

Harness Engineering 将成为 AI 工程基石。随着 Agent 应用的普及，如何确保 Agent 可靠、可控地运行，将成为工程实践的核心问题。

竞争壁垒从模型迁移到 Harness 设计。当模型能力趋于同质化时，Harness 设计的优劣将成为产品差异化的关键。

工程师角色从写代码变为设计自治系统、构建反馈与约束。未来的 AI 工程师需要具备系统思维，能够设计复杂的反馈与约束机制。

大模型已经越过"炫技阶段"，正式进入工程化、约束化、产品化的深水区。

Heartbeat 提供自动化定时能力，让 Agent 能主动运行；Harness 约束工程提供可控性保障，让 Agent 稳定不漂移；产品化思维决定项目能否立项与规模化；技术深度决定长期壁垒与不可替代性。

未来大模型落地的核心竞争力，不再是谁的模型更大，而是谁更可控、更稳定、更低成本、更能解决真实业务问题。

未来是：Agent 自主干活，Harness 确保靠谱。Agent 负责执行具体任务，Harness 负责治理与保障，两者协同实现可靠的人工智能应用。

参考文献

[1] lencx. 深度解析：Harness Engineering[EB/OL]. (2026-04-03)[2026-04-12]. https://mp.weixin.qq.com/s/-mgf8K7XZrTKoD0pMOIn3w.

[2] Anthropic. Building Effective Agents[EB/OL]. (2024-12)[2026-04-12]. https://www.anthropic.com/engineering/building-effective-agents.

[3] Anthropic. Effective context engineering for AI agents[EB/OL]. (2025)[2026-04-12]. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents.

[4] Hashimoto M. My AI Adoption Journey[EB/OL]. (2026-02-05)[2026-04-12]. https://mitchellh.com/writing/my-ai-adoption-journey.

[5] OpenAI. Harness Engineering: Leveraging Codex in an Agent-First World[EB/OL]. (2026-02-11)[2026-04-12]. https://openai.com/index/harness-engineering.

[6] Fowler M. Harness Engineering - first thoughts[EB/OL]. (2026-04)[2026-04-12]. https://martinfowler.com/articles/exploring-gen-ai/harness-engineering-memo.html.

[7] Anthropic. Demystifying evals for AI agents[EB/OL]. (2026)[2026-04-12]. https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents.