Agent 的核心由两个变量决定:控制任务走向的workflow(工作流)、控制内容生成的context(上下文),据此可分为 4 类典型场景(达摩院李瑞博,25.09.23):
workflow 与 context 均确定:该场景易实现自动化,类似于传统 RPA(机器人流程自动化),常见应用如发票处理、表单填报等。在此类场景中,AI 主要起 “粘合剂” 作用,发挥空间相对有限。
workflow 确定但 context 不确定:此类场景需要借助语义理解进行信息补全,例如客服问答、合同解析等任务。完成这些任务依赖外部检索、知识图谱等方式来填补信息缺口。
workflow 不确定但 context 确定:在这种情况下,Agent 需要自主规划任务执行路径,典型应用包括市场分析报告生成、个性化推荐等。End-to-End RL Agent(强化学习 Agent)在此类任务中表现出色。
workflow 与 context 均不确定:这是最复杂的场景,Agent 需要具备推理和探索能力,适用于创新方案设计、跨部门信息收集等任务。此类场景依赖通用型 Agent,关键在于配备丰富工具,特别是开放编程能力,如克隆修改 Github 代码等操作。
高不确定性环境的应对方案
当 Agent 处于高不确定性环境时,容易出现 “幻觉(hallucination)” 或陷入无限循环,需要借助以下工具和方法应对(达摩院李瑞博,25.09.23):
- 动态规划与探索:允许 Agent 自主分解任务、迭代执行路径。
- 上下文补全:通过检索、搜索、知识整合等方式填充未知信息。
- 执行力提升:重点利用编程工具,支持代码的生成、修改和运行。
- 多代理协作:模拟 “团队分工” 模式,提高任务执行的鲁棒性。