What’s next for AI agentic workflows 总结笔记

很多人一提起“大模型应用”，脑子里还停留在那种：写一条超级长的 Prompt，按回车，等模型给自己一个“一步到位”的回复。

Andrew Ng 在 Sequoia 的 AI Ascent 演讲里，就是是把这个幻想当场掀掉，他反复强调，真正能把模型能力榨干的，不是更大一代的基础模型，而是一整套更像人干活的 agentic workflow：先拆解任务，再规划、调用工具、自我反思，甚至让多个 Agent 互相吵一吵。

这篇笔记就是围绕这场演讲，整理出一些对我做系统设计、RAG、Agent 编排都很有启发的要点，方便以后翻回来复用。

基本信息 & TL;DR

主讲人：Andrew Ng（DeepLearning.AI、AI Fund 创始人）
场合：Sequoia 的 AI Ascent 活动演讲
主题：Agentic Workflows——让 LLM 不再一次性回答，而是 像人一样分步思考、反复迭代、协同工作。

一句话总结：

与其砸更多钱上最强模型，不如先把「工作流」做好：拆解任务 + Reflection + 工具调用 + 规划 + 多 Agent 协作。很多场景里，老模型 + 好工作流 可以干翻 新模型 + 一条 Prompt。

从单条 Prompt 幻觉，到 Agentic Workflow

传统使用方式：Non-Agentic Workflow

绝大多数人（包括我们自己 😅）大多数时候使用大模型的方式是：

扔进一条长 Prompt → 期待一次性给出“完美答案”。

Andrew Ng 的观点：这就像让一个人写论文时 从头打到尾，中间不许按 Backspace。模型偶尔能干出来，但整体非常不可靠。

Agentic Workflow：让模型像人一样干活

Agentic Workflow 的思路是：

先让模型 规划/拆解任务（outline / plan）。
再按子任务逐步执行（检索 → 草稿 → 自我检查 → 修改……）。
每一步都可以 反思 / 调整 / 重试，甚至根据中间结果换一种策略。

它不再是“一个万能 Prompt”，而是一条 可循环的流程：

Think → Act → Observe → Reflect → Update Plan → Repeat

关键结论：

在 HumanEval 这类编码基准测试上，

GPT-3.5 + 合理的 Agentic workflow 可以跑赢 GPT-4 + 传统零样本 Prompt。

这对产品/系统设计的含义是：

先别把希望全寄托在“换个更大模型”上，问自己一句：工作流设计好了吗？

Andrew 总结的四类 Agentic Reasoning 设计模式

Andrew 把杂乱的 “AI Agent” 研究和实践，粗略归纳成四种设计模式：

Reflection（自我反思）
Tool Use（工具调用）
Planning / Chain-of-Thought / Chain-of-Action（规划与行动链）
Multi-Agent Collaboration / Debate（多 Agent 协作/辩论）

他自己的评价是：

Reflection、Tool Use：比较成熟、好调教，工程上很实用。
Planning、多 Agent：效果有时惊艳，有时翻车，目前还不算稳，但值得持续尝试。

四种模式逐个拆解

Reflection

最典型的例子是代码生成：

Coder Agent（写代码）

Prompt：根据任务写出函数实现。

输出：version 1 代码。
Self-Reflection / Critic（自我检查）

把 同一段代码 再喂给模型： “这是为任务 X 写的代码，请你仔细检查它的正确性、效率、代码风格，指出问题并给出修改建议。”

模型会：找出潜在 bug（例如边界条件、时间复杂度、异常处理等）。输出一段“评审意见”。
应用反馈，再生成 version 2

把评审意见作为追加上下文，再让它重写代码。

如果有单元测试，再加一轮： 跑单测 → 失败 → 把错误信息给模型 → 让它解释原因、继续修。

进阶玩法：

两个不同的 Agent：

Coder Agent：“你是资深工程师，负责写代码。”

Critic Agent：“你是严苛 code reviewer，专门挑毛病。”

两个 Agent 之间形成一个 “虚拟的 PR 流程”。

对我自己的启发：以后写 Agent 时，可以考虑默认把「反思环节」当作必选，而不是“可选锦上添花”。

Tool Use

这块其实大家已经很熟悉了：

写代码 → 运行代码 → 读回输出
搜索网页 → 汇总结果
调用向量检索 → 读 RAG 上下文……

Andrew 的补充点：

早期工具调用很多是从 视觉领域 长出来的：语言模型看不见图片，只能通过“调用函数”去做检测、分割、生成等操作。
今天的工具早已扩展到：
- 数据分析（Python、SQL）、
- 调用内部业务 API、
- 发邮件、改日程、拉工单……

这里的要点是： Tool Use 实质是把「LLM 的输出」变成「函数调用/行动」，再把结果变回「输入」，形成闭环。

Planning / Chain-of-Thought / Chain-of-Action

Planning 对应的是：

先想清楚再动手

在 Agent 场景里，大概包含几层：

任务分解：

把一个大目标拆成子任务（信息收集 → 方案生成 → 验证 → 总结）。

行动序列规划（Chain-of-Action）：

决定先用哪些工具、再执行哪些步骤。

根据反馈动态调整计划：

工具调用失败？

某步结果不符合预期？ → 允许 Agent 修改计划、重试、绕路。

Andrew 提到：

有时会出现“现场表演”：

他做 live demo 时，有步骤失败，Agent 会自动改路线，重新查资料或采用备选方案。
表现不算每次都稳定，但当它成功时，会给人一种新的 wow moment。

Multi-Agent Collaboration / Debate

最后一类是多 Agent 协作 / 辩论：

可以是 同一模型，不同角色 Prompt：

Agent A：偏“乐观派/生成派”。

Agent B：偏“怀疑派/评审派”。
也可以是 不同模型互相辩论：

例如 “GPT vs Gemini” 对同一问题展开多轮讨论，最后综合他们的共识。

他说的一个结论：

多 Agent Debate 是一个 性能显著提升的通用设计模式，目前已经在不少任务上被证明有效。

对我们自己的系统设计来说，这意味着：

不必迷信“一个万能超级 Agent”。

很多任务其实天然适合拆成：

生成者 / 评审者
规划者 / 执行者
乐观策略 / 保守策略之间的对话与博弈。

4. 性能、成本与“快模型”的重要性

Andrew 在结尾强调了一个容易被忽略的点：token 生成速度。

Agentic Workflow 的特点是：

多轮自言自语 + 多次调用工具 + 多次重写输出
在这种模式下：

稍弱但很快的模型，因为能跑更多轮迭代，可能实际效果好过慢吞吞但单次质量更高的大模型。

同时，他也提醒：

开发者和用户需要 调整对响应时间的预期：

Agentic 工作流很可能比“单轮问答”更慢。但换来的，是更高的可靠性与任务完成度。

我自己的小结（站在开发者视角）

这场分享对我最大的提醒有三点：

模型升级或许没那么神奇，工作流升级空间反而更大。
Agentic 设计模式（Reflection / Tools / Planning / Multi-Agent）已经足够工程化，可以写进自己的架构规范，而不是停留在论文和 Demo。
以后评估一个系统，不应该只问： “你用的是什么模型？” 还要加一句： “你的 Agentic 工作流是怎么设计的？”