AI Agent 基本循环:感知 → 规划 → 行动 → 观察
一、背景
只会 一次性问答 的 ChatBot,和能 帮你订会议室、查数据库、改工单状态 的「助手」,差在哪?往往就差一个 Agent 循环:模型不只在对话框里说完就结束,而是 反复决定要不要调工具、调完再看结果、再决定下一步,直到任务完成或失败退出。
如果你已经看过专栏里 Function Calling 与 MCP,可以把本文当成 「之上的一层指挥流程」——MCP 解决 工具怎么接,Agent 循环解决 何时接、接错了怎么办、什么时候停。做自动化运维、数据分析助手、内部办公 Copilot,都离不开这套心智模型。
二、核心概念和核心原理(详细解答+通俗解释)
(一)核心概念(先通俗,再详细)
1. Agent——带「行动能力」的策略通俗解释:除了生成文本,还能 发起外部动作(HTTP、SQL、脚本、浏览器操作)。详细解答:在 LLM 语境下,Agent 常由 规划器(可用同一 LLM)+ 工具注册表 + 记忆 + 停止条件 组成;实现从 ReAct 提示模式 到 LangGraph 状态机 不等。
**2. 基本循环:感知-规划-行动-观察(P-A-O 或 ReAct)**通俗解释:感知:用户目标 + 当前环境信息;规划:下一步干啥;行动:调工具;观察:读工具返回;再循环。详细解答:观察结果 写回上下文,模型像「开卷考试」一样基于新事实继续;最大步数、超时、预算 必须有硬限制,防死循环。
3. 记忆:短期 vs 长期通俗解释:短期就是 对话上下文 + 本轮工具日志;长期可以是 向量库摘要 / 用户画像表。详细解答:记忆不是越多越好——噪声多会 带偏规划;要 摘要与引用。
(二)核心原理(通俗拆解,一步一步讲清楚)
**第一步:工具描述就是「可调 API 文档」**通俗解释:模型靠 函数名、参数 schema、自然语言说明 选对工具;写不清就会 乱调。详细解答:与 MCP 的 Tool清单同一逻辑;强类型 JSON Schema 利于稳定解析。
第二步:错误是常态,要有重试与降级通俗解释:网络失败、参数缺字段、权限 403——Agent 要 读错误信息 再改,不能无脑重试。详细解答:工程上记录 trace,每步 tool_call_id对齐日志。
第三步:安全边界通俗解释:高危操作(删库、转账)要 二次确认或人工审批。详细解答:最小权限 原则给工具 token;沙箱 执行代码。
三、补充进阶知识点(易懂不晦涩,适配新手进阶)
1. 单 Agent vs 多 Agent通俗解释:多角色分工(研究员/程序员/测试)适合复杂项目,但 协调成本高。简单补充:先从 单 Agent + 好工具 做起。
2. 与 RAG 的组合通俗解释:先检索再决定调啥工具,或工具里再嵌套检索。简单补充:Plan-and-Execute 先列计划再逐步执行,减少反复检索浪费。
3. 和之前知识点的关联****提示工程 定义 ReAct 格式;上下文窗口 装工具日志;幻觉 表现为 乱编工具结果——要以 真实 observation 为准;CoT 可帮助 先规划再调工具。
四、文章知识总结
- 背景:Agent = LLM + 工具 + 循环 + 停止条件;是「能办事」的关键形态。
- 核心概念:感知-规划-行动-观察;记忆分短长;工具 schema 要写好。
- 核心原理:观察写回上下文;限步限时;安全与权限必管。
- 进阶:多 Agent 慎用;与 RAG、Plan-Execute 组合;强 trace。
- 核心逻辑:没有 Observation 就别瞎编下一步——跟调试代码一样。
总结:读完 MCP 再读本文,你会清楚 协议之下、产品之上 的那层「循环与控制流」;这也是现在很多 AI 应用框架 默认帮你搭好的骨架。