这是一个关于 AI 工作流认知演进的元理论——不是讲某个工具怎么用,而是讲看待 AI 工作流的方式本身如何演进。这套认知来自一年内密集的人机协作实践,经历了四个版本的迭代。
AI 能力的上限不取决于模型本身,而取决于上下文的完备度和架构的正确性。 编排工作流、调试 prompt、手动纠错——这些都是过渡态。
终态是:设计一个环境,让 AI 在其中自由探索、自我进化,人只设定目标和衡量标准。
换句话说:与其花时间告诉 AI 每一步该怎么做,不如花时间把它需要的信息、知识、经验全部准备好,然后告诉它你想要什么结果——让它自己找路。这就是从"编排"到"架构"的转变。
以下四个版本并非跨越多年的"时代"——它们全部发生在最近一年之内。模型能力的快速进化,推动了人和 AI 协作方式的快速迭代。每一次迭代,人的角色都在后退一步,AI 的自主空间都在扩大一圈。
最早期的 AI 协作方式。人逐句告诉 AI 怎么做,一步一步检查输出,发现错误就手动纠正。AI 只是一个执行指令的打字机,人做所有的思考和决策。
这就是现在流行的"Vibe Coding"——跟着感觉走,边写边试边改。对于简单任务够用,但面对复杂项目,人会变成全职的纠错员,AI 的能力根本释放不出来。
核心问题:知识停留在人的脑子里,每次对话都要重新交代背景,没有任何积累。
意识到 AI 不是不够聪明,而是信息不够。开始把项目背景、需求文档、编码规范写成结构化文档(比如 CLAUDE.md、PRD),让 AI 每次启动时自动读取。
人的角色变了——不再逐步指导,而是像产品经理一样,提前把"需求规格书"写好,AI 照着做。信息开始外化为文档,不再完全依赖口头交代。
局限性:文档是静态的,写一次用很多次,但 AI 只能被动接收——它不知道什么时候该去找什么信息,更不知道信息本身可能已经过时了。
不满足于写文档了,开始设计完整的自动化流程:任务怎么分解、子代理怎么分工、结果怎么验证、出错怎么回滚。Skill 体系、闭环测试、并行子代理编排都是这个阶段的产物。
人的角色进一步后退——不管具体执行,而是设计"流水线"。像工厂流程工程师一样,定义每个环节的输入输出和质检标准。
在这个阶段发现了一个重要的事实:不同编排模式(主从、对等、层级、流水线等)的效果差距其实不大。 精心设计的 7 种编排架构,实测下来并没有比简单的"主 Agent + 子代理"模式好多少。这暗示着:编排可能不是最重要的事情。
这是 OpenAI 在 2026 年初提出的概念:重要的不是怎么编排 AI 的行为,而是怎么设计 AI 运行的"环境"——它能接触到哪些信息、拥有哪些工具、知道哪些规则、如何积累经验。
人的角色变成了系统架构师:不管 AI 具体怎么干活,只关心三件事——环境是否完备(信息够不够)、目标是否清晰(AI 知不知道要做什么)、衡量标准是否正确(怎么判断做得好不好)。
这就像管理一个非常聪明的新员工:你不需要教他怎么写代码,你只需要确保公司的知识库、文档、项目背景他都能看到。只要信息足够,他自己能上手。
一个具体的例子:OpenClaw(一个国产 AI 编码工具)在某些场景下比 Claude Code 表现更好。它的模型并不更强——相反,底层模型能力其实更弱。但它做对了一件事:打通了用户的所有上下文——飞书文档、项目代码、聊天记录、个人笔记,全部对 AI 开放。
这就像"把龙虾从鱼缸放回了大海"——能力没变,但因为环境足够开阔,它能做的事情一下子多了很多。
上下文分两种:内部上下文是你自己的东西——个人笔记、团队会议纪要、项目背景、价值观和偏好;外部上下文是互联网上的公开知识,经过筛选浓缩后的行业最佳实践、调研报告等。两种都要喂给 AI,缺一不可。
当前最大的痛点是上下文碎片化:笔记在一个 App 里,文档在飞书,聊天在微信,代码在 GitHub。AI 没有办法在需要的时候即时触达所有信息。解决这个问题,比优化任何 prompt 都重要。
这是一个反直觉的发现。很多人在研究怎么让多个 AI Agent 分工协作——谁负责写代码、谁负责测试、谁负责审查。但实测下来,不同编排模式的效果差距不大。当前最有效的实践就是一个主 Agent 加若干子代理,甚至不需要给子代理做固定分工。
为什么?因为 Agent 不像人。 人有自己的性格、知识背景、思维习惯——这些是天然的差异化。但 Agent 的所有"个性"都来自你给它的上下文。你给它一份前端文档,它就是前端专家;你给它一份测试规范,它就是测试工程师。本质上,Agent 只是上下文的一个动态排列组合。
两个 Agent 之间唯一真正不同的,是它们各自积累的持久化记忆——过去犯过的错、学到的经验、踩过的坑。除此之外,分工只是上下文的分配,不需要复杂的组织架构。
结论:所谓的多 Agent 编排问题,退化为上下文和记忆的编排问题。 与其设计复杂的 Agent 组织结构,不如把精力花在整理上下文和积累记忆上。
既然上下文是核心,那怎么管理上下文?目前看到三种模式,代表了三个演进阶段:
| 模式 | 描述 | 代表 | 状态 |
|---|---|---|---|
| 预规划 | 人提前写好规则:什么任务加载什么上下文 | Claude Code, OpenClaw | 当前主流 |
| 混合模式 | 一部分提前准备,一部分 AI 自己判断需要什么就去找什么 | OpenClaw 部分功能 | 演进中 |
| 元级控制 | 用一个专门的 AI 来管理其他 AI 的上下文——它观察运行效果,动态调整上下文分配 | 正在构建中 | 前沿 |
元级控制为什么需要独立的角色?因为 AI 在自己的上下文里工作时,无法对自己"内观"——"不识庐山真面目,只缘身在此山中"。你需要一个站在外面的观察者(Observer),看整个系统运行得怎么样;还需要一个架构师(Architect),根据观察结果决定该怎么调整环境。
这可能是最重要的一个认知转变。过去我们跟 AI 协作,本质上是"Manager 模式"——像经理带下属一样,一步步检查、纠错、指导。现在需要切换到"Architect 模式"——像系统架构师一样,设计环境和规则,然后放手让 AI 自己探索。
| 维度 | Manager 模式 | Architect 模式 |
|---|---|---|
| 关注什么 | 每一步输出是否正确 | 环境、目标、衡量标准是否正确 |
| 日常操作 | "这个不对,应该这样改" | "目标是 X,标准是 Y,自己找路" |
| 人的价值 | 知道怎么做(路径知识) | 知道什么是"好"(判断力) |
| 可衡量的部分 | 人来逐步判断 | AI 自我进化、自我优化 |
| 不可衡量的部分 | 通常被忽略 | 由人来定义标准(品味、价值观) |
关键原则:可衡量的,让 AI 自我进化。不可衡量的,由人来设计标准。
什么是可衡量的?代码是否通过测试、部署是否成功、性能指标是否达标——这些有明确的好坏标准,AI 完全可以自己判断和优化。
什么是不可衡量的?"这篇文章的叙事有没有品味"、"这个教育方案是否真正关注了学生"、"这个产品决策是否符合价值观"——这些需要人来定义标准。这也是 AI 时代人最核心的价值所在。
把前面的洞察组合起来,就形成了一个四层自治系统的架构设想:
┌─────────────────────────────────────────────────────────┐ │ Architect Layer (定义目标 · 设计环境 · 制定衡量标准) │ │ ↑ 反馈 ↓ 指令 │ ├─────────────────────────────────────────────────────────┤ │ Observer Layer (监控运行 · 评估质量 · 触发调整) │ │ ↑ 数据 ↓ 信号 │ ├─────────────────────────────────────────────────────────┤ │ Main Agent (主执行 · 任务分解 · 上下文管理) │ │ ↓ 子任务 ↑ 结果 │ ├─────────────────────────────────────────────────────────┤ │ Sub-Agents (并行执行 · 专域能力 · 独立记忆) │ └─────────────────────────────────────────────────────────┘ 关键:人只存在于 Architect Layer,其余三层由 AI 自主运转
底下两层(Main Agent + Sub-Agents)负责干活,这是目前大多数 AI 工具已经在做的事情。上面两层是新增的:Observer 持续观察系统运行效果,Architect 根据观察结果调整环境和规则。
这与 OpenAI 提出的 Harness Engineering 逻辑一致,但增加了一层关键设计:AI 不仅要收敛(找到已知最优解),还要发散(探索未知可能性)。 先发散后收敛,在交替中涌现超出预期的洞察——这才是活系统和机械系统的本质区别。
你今天精心设计的工作流编排,半年后大概率过时。不是因为设计得不好,而是因为模型能力在进化。
半年前需要 5 个 Skill、3 个子代理、一套复杂的闭环验证流程才能完成的任务,现在可能只需要一句话描述目标就行了。就像一个足够聪明的新员工,你什么都不用教,他自己看完知识库就能上手——你之前设计的那套"新员工培训流程"自然就失效了。
这意味着两件事:
1. 编排是战术,架构是战略。 不要把最多的精力花在打磨编排细节上。编排的边际收益会随模型进化趋近于零。
2. 优先构建不会过时的东西——上下文完备度(你的知识库、经验库、价值观描述)和记忆持久化机制(怎么积累经验、怎么索引知识)。这些是真正的资产,不会因为模型换代而失效。
AI 要变聪明,光靠模型升级不够——它需要一套记忆积累机制,就像人通过经验变聪明一样。三步缺一不可:
第一步:建立规则。 告诉 AI 怎么工作。犯了错必须反思,把错误原因记录下来。遇到不确定的假设时先暂停,问自己"还有没有其他可能性"——先广度搜索,再深度搜索,不要一条路走到黑。
第二步:建立索引。 给 AI 一张"地图"——你有哪些知识库、调研文档、过往经验,它们在哪里、关于什么主题。索引本身不需要很长(1000-1500 字足够),但背后链接的知识库可以非常庞大。关键是让 AI 知道"去哪里找"。
第三步:沉淀踩坑经验。 每次遇到新问题并解决后,把解决方案更新到索引里。下次遇到相同问题,AI 直接复用——不用从头推理,不会再犯同样的错。
这是一个滚雪球的过程:索引越来越完善 → AI 越来越聪明 → 犯的错越来越少 → 积累的经验越来越多。单纯堆 CLAUDE.md 写一大堆规则是"伪持久化"——没有索引和经验沉淀,规则只是静态文本,不是活的记忆。
一个有生命力的 AI 系统(不是机械执行的自动化脚本)需要三种力量同时在场:
递归是引擎——简单规则不断自我展开。每完成一轮任务,不是停下来等指令,而是自己问"基于现在知道的一切,最值得做的下一件事是什么?"然后继续。就像一个有自驱力的员工,做完手头的事会自动找下一件事做。
迭代是方向盘——在反馈中螺旋上升。做了一件事 → 看结果 → 发现问题 → 修正 → 再做。闭环验证就是迭代机制的具体实现。没有迭代,递归会跑偏;没有反馈,系统会在错误方向上越走越远。
涌现是两者运行足够久后的意外产物——自下而上的创造。当你给 AI 足够的上下文和自由度,它会产出你没有预想到的东西。涌现不能被计划,但可以被允许——你要做的是创造条件,而不是规定结果。
三者的嵌套关系:递归提供持续性(不停下来),迭代提供方向性(不跑偏),涌现是两者运行足够久之后自然发生的事。
不要跟 AI 讲"你应该怎么做",只告诉它你最终想要达到什么。
为什么?因为当你基于自己的经验去拆解任务路径时,这个拆解本身可能就是错的。人类习惯用传统的组织逻辑来分解问题——先做 A、再做 B、最后做 C。但 AI 的工作方式完全不同,它可能会找到一条你完全没想到的、更好的路径。你的中间步骤规划,反而限制了 AI 的发挥空间。
一个典型的例子:"帮我写一个解析 JSON 的函数"是 V1.0 的说法;"我需要从这个 API 获取用户数据并展示在页面上,你来设计方案"是 V4.0 的说法。后者给了 AI 足够的自主空间,它可能会告诉你其实不需要手动解析,直接用某个库就行。
当然,这对模型能力有要求。给高层目标而不给中间步骤,需要 AI 有强逻辑推理、自我反思、不偏离目标的稳定性。顶级模型(如 Opus)收敛速度快得多,弱模型容易做着做着就偏了。所以 模型能力决定你能在多高的抽象层级上跟它对话。
判断:在优化工作流编排之前,必须先确保上下文完备度达标。
原因:上下文是真正的瓶颈。再精妙的编排,在残缺的上下文上都会失效。反之,完备的上下文配合简单编排,往往产出更好。
实际影响:知识库、记忆系统、经验索引的建设优先于任何工作流自动化投入。
判断:让 AI 在无人干预的情况下,自主阅读用户的笔记和文档,发现兴趣交叉点,产出调研报告。
结果:实验成功。AI 产出了 10 个领域的调研报告,核心结论是"上下文工程是 AI 的能力,意义工程是人的能力"。
待解决:AI 会不断停下来等指令,需要外部循环机制让它真正持续运行。
判断:方法论的构建者本身就是最重的使用者。自己开发工具、自己每天用、自己发现问题、自己迭代。
原因:构建者 × 使用者的循环速度极快,不需要团队做需求分析。日常使用就是持续集成测试。
成本:Claude Max + Google Ultra + Codex ≈ $600/月,远低于招聘一个员工,但产出的迭代速度极快。
AI 目前无法自主持续运行——每次都需要人来启动一轮对话。隔夜实验中 AI 会不断停下来等指令。需要一个外部触发机制,让 AI 可以定时自我启动、在发散和收敛之间自主切换。这是 V4.0 架构真正落地的最后一个技术障碍。
"可衡量的让 AI 自进化"这条原则很清晰。但品味、叙事质量、教育理念这些不可衡量的维度,怎么转化为 AI 可以理解和对齐的标准?这是人在 AI 时代最核心的价值点,但目前只能靠直觉,没有系统性的方法论。
笔记在 App 里,文档在飞书,聊天在微信,代码在 GitHub。当前方案是逐个打通(为每个平台写 MCP 接口),但这是线性增长的工作量。需要一个统一的上下文聚合层,让 AI 不管信息在哪个平台,都能即时获取。
OpenClaw 擅长上下文触达(飞书打通),Claude Code 擅长工程执行(Opus 模型强),Codex 擅长纯代码生成(GPT-5.4)。三者各有优势但相互独立。需要在三者之间建立调度层:规划在 OpenClaw,执行在 Claude Code,编码在 Codex。
这些认知目前主要来自个人的密集实践。"上下文完备度 > 编排优化"这个结论在更广泛的团队场景、不同行业中是否成立?什么情况下这些结论可能失效?需要跨场景的验证。