AI Agent 基本循环：感知 → 规划 → 行动 → 观察

一、背景

只会 一次性问答 的 ChatBot，和能 帮你订会议室、查数据库、改工单状态 的「助手」，差在哪？往往就差一个 Agent 循环：模型不只在对话框里说完就结束，而是 反复决定要不要调工具、调完再看结果、再决定下一步，直到任务完成或失败退出。

如果你已经看过专栏里 Function Calling 与 MCP，可以把本文当成 「之上的一层指挥流程」——MCP 解决 工具怎么接，Agent 循环解决 何时接、接错了怎么办、什么时候停。做自动化运维、数据分析助手、内部办公 Copilot，都离不开这套心智模型。

二、核心概念和核心原理（详细解答+通俗解释）

（一）核心概念（先通俗，再详细）

1. Agent——带「行动能力」的策略通俗解释：除了生成文本，还能 发起外部动作（HTTP、SQL、脚本、浏览器操作）。详细解答：在 LLM 语境下，Agent 常由 规划器（可用同一 LLM）+ 工具注册表 + 记忆 + 停止条件 组成；实现从 ReAct 提示模式 到 LangGraph 状态机 不等。
**2. 基本循环：感知-规划-行动-观察（P-A-O 或 ReAct）**通俗解释：感知：用户目标 + 当前环境信息；规划：下一步干啥；行动：调工具；观察：读工具返回；再循环。详细解答：观察结果 写回上下文，模型像「开卷考试」一样基于新事实继续；最大步数、超时、预算必须有硬限制，防死循环。
3. 记忆：短期 vs 长期通俗解释：短期就是 对话上下文 + 本轮工具日志；长期可以是 向量库摘要 / 用户画像表。详细解答：记忆不是越多越好——噪声多会 带偏规划；要 摘要与引用。

（二）核心原理（通俗拆解，一步一步讲清楚）

**第一步：工具描述就是「可调 API 文档」**通俗解释：模型靠 函数名、参数 schema、自然语言说明 选对工具；写不清就会乱调。详细解答：与 MCP 的 Tool清单同一逻辑；强类型 JSON Schema 利于稳定解析。
第二步：错误是常态，要有重试与降级通俗解释：网络失败、参数缺字段、权限 403——Agent 要 读错误信息 再改，不能无脑重试。详细解答：工程上记录 trace，每步 tool_call_id对齐日志。
第三步：安全边界通俗解释：高危操作（删库、转账）要 二次确认或人工审批。详细解答：最小权限 原则给工具 token；沙箱执行代码。

三、补充进阶知识点（易懂不晦涩，适配新手进阶）

1. 单 Agent vs 多 Agent通俗解释：多角色分工（研究员/程序员/测试）适合复杂项目，但 协调成本高。简单补充：先从 单 Agent + 好工具 做起。
2. 与 RAG 的组合通俗解释：先检索再决定调啥工具，或工具里再嵌套检索。简单补充：Plan-and-Execute 先列计划再逐步执行，减少反复检索浪费。
3. 和之前知识点的关联****提示工程 定义 ReAct 格式；上下文窗口 装工具日志；幻觉表现为 乱编工具结果——要以 真实 observation 为准；CoT 可帮助 先规划再调工具。

四、文章知识总结

背景：Agent = LLM + 工具 + 循环 + 停止条件；是「能办事」的关键形态。
核心概念：感知-规划-行动-观察；记忆分短长；工具 schema 要写好。
核心原理：观察写回上下文；限步限时；安全与权限必管。
进阶：多 Agent 慎用；与 RAG、Plan-Execute 组合；强 trace。
核心逻辑：没有 Observation 就别瞎编下一步——跟调试代码一样。

总结：读完 MCP 再读本文，你会清楚 协议之下、产品之上 的那层「循环与控制流」；这也是现在很多 AI 应用框架 默认帮你搭好的骨架。

AI Agent 基本循环：感知 → 规划 → 行动 → 观察 ​

一、背景 ​

二、核心概念和核心原理（详细解答+通俗解释） ​

（一）核心概念（先通俗，再详细） ​

（二）核心原理（通俗拆解，一步一步讲清楚） ​

三、补充进阶知识点（易懂不晦涩，适配新手进阶） ​

四、文章知识总结 ​