主题综述 — AI 工作流知识库

AI 工作流认知 从编排到架构

这是一个关于 AI 工作流认知演进的元理论——不是讲某个工具怎么用,而是讲看待 AI 工作流的方式本身如何演进。这套认知来自一年内密集的人机协作实践,经历了四个版本的迭代。

2026-03-16  ·  综述文档  ·  9 核心洞察

一个根本性的认知转变

核心论断

AI 能力的上限不取决于模型本身,而取决于上下文的完备度和架构的正确性。 编排工作流、调试 prompt、手动纠错——这些都是过渡态

终态是:设计一个环境,让 AI 在其中自由探索、自我进化,人只设定目标和衡量标准

换句话说:与其花时间告诉 AI 每一步该怎么做,不如花时间把它需要的信息、知识、经验全部准备好,然后告诉它你想要什么结果——让它自己找路。这就是从"编排"到"架构"的转变。

人机协作方式的四次迭代

以下四个版本并非跨越多年的"时代"——它们全部发生在最近一年之内。模型能力的快速进化,推动了人和 AI 协作方式的快速迭代。每一次迭代,人的角色都在后退一步,AI 的自主空间都在扩大一圈。

协作方式版本演进

V1.0
人是副驾驶

微操作(Vibe Coding)

最早期的 AI 协作方式。人逐句告诉 AI 怎么做,一步一步检查输出,发现错误就手动纠正。AI 只是一个执行指令的打字机,人做所有的思考和决策。

这就是现在流行的"Vibe Coding"——跟着感觉走,边写边试边改。对于简单任务够用,但面对复杂项目,人会变成全职的纠错员,AI 的能力根本释放不出来。

核心问题:知识停留在人的脑子里,每次对话都要重新交代背景,没有任何积累。

V2.0
人是产品经理

文档驱动

意识到 AI 不是不够聪明,而是信息不够。开始把项目背景、需求文档、编码规范写成结构化文档(比如 CLAUDE.md、PRD),让 AI 每次启动时自动读取。

人的角色变了——不再逐步指导,而是像产品经理一样,提前把"需求规格书"写好,AI 照着做。信息开始外化为文档,不再完全依赖口头交代。

局限性:文档是静态的,写一次用很多次,但 AI 只能被动接收——它不知道什么时候该去找什么信息,更不知道信息本身可能已经过时了。

V3.0
人是流程架构师

工作流驱动

不满足于写文档了,开始设计完整的自动化流程:任务怎么分解、子代理怎么分工、结果怎么验证、出错怎么回滚。Skill 体系、闭环测试、并行子代理编排都是这个阶段的产物。

人的角色进一步后退——不管具体执行,而是设计"流水线"。像工厂流程工程师一样,定义每个环节的输入输出和质检标准。

在这个阶段发现了一个重要的事实:不同编排模式(主从、对等、层级、流水线等)的效果差距其实不大。 精心设计的 7 种编排架构,实测下来并没有比简单的"主 Agent + 子代理"模式好多少。这暗示着:编排可能不是最重要的事情。

V4.0
人是系统架构师

上下文架构(Harness Engineering)

这是 OpenAI 在 2026 年初提出的概念:重要的不是怎么编排 AI 的行为,而是怎么设计 AI 运行的"环境"——它能接触到哪些信息、拥有哪些工具、知道哪些规则、如何积累经验。

人的角色变成了系统架构师:不管 AI 具体怎么干活,只关心三件事——环境是否完备(信息够不够)、目标是否清晰(AI 知不知道要做什么)、衡量标准是否正确(怎么判断做得好不好)。

这就像管理一个非常聪明的新员工:你不需要教他怎么写代码,你只需要确保公司的知识库、文档、项目背景他都能看到。只要信息足够,他自己能上手。

9 个改变认知的发现

01
上下文完备度是真正的瓶颈

一个具体的例子:OpenClaw(一个国产 AI 编码工具)在某些场景下比 Claude Code 表现更好。它的模型并不更强——相反,底层模型能力其实更弱。但它做对了一件事:打通了用户的所有上下文——飞书文档、项目代码、聊天记录、个人笔记,全部对 AI 开放。

这就像"把龙虾从鱼缸放回了大海"——能力没变,但因为环境足够开阔,它能做的事情一下子多了很多。

上下文分两种:内部上下文是你自己的东西——个人笔记、团队会议纪要、项目背景、价值观和偏好;外部上下文是互联网上的公开知识,经过筛选浓缩后的行业最佳实践、调研报告等。两种都要喂给 AI,缺一不可。

当前最大的痛点是上下文碎片化:笔记在一个 App 里,文档在飞书,聊天在微信,代码在 GitHub。AI 没有办法在需要的时候即时触达所有信息。解决这个问题,比优化任何 prompt 都重要。

02
多 Agent 编排退化为上下文编排

这是一个反直觉的发现。很多人在研究怎么让多个 AI Agent 分工协作——谁负责写代码、谁负责测试、谁负责审查。但实测下来,不同编排模式的效果差距不大。当前最有效的实践就是一个主 Agent 加若干子代理,甚至不需要给子代理做固定分工。

为什么?因为 Agent 不像人。 人有自己的性格、知识背景、思维习惯——这些是天然的差异化。但 Agent 的所有"个性"都来自你给它的上下文。你给它一份前端文档,它就是前端专家;你给它一份测试规范,它就是测试工程师。本质上,Agent 只是上下文的一个动态排列组合。

两个 Agent 之间唯一真正不同的,是它们各自积累的持久化记忆——过去犯过的错、学到的经验、踩过的坑。除此之外,分工只是上下文的分配,不需要复杂的组织架构。

结论:所谓的多 Agent 编排问题,退化为上下文和记忆的编排问题。 与其设计复杂的 Agent 组织结构,不如把精力花在整理上下文和积累记忆上。

03
上下文工程的三种模式

既然上下文是核心,那怎么管理上下文?目前看到三种模式,代表了三个演进阶段:

模式 描述 代表 状态
预规划 人提前写好规则:什么任务加载什么上下文 Claude Code, OpenClaw 当前主流
混合模式 一部分提前准备,一部分 AI 自己判断需要什么就去找什么 OpenClaw 部分功能 演进中
元级控制 用一个专门的 AI 来管理其他 AI 的上下文——它观察运行效果,动态调整上下文分配 正在构建中 前沿

元级控制为什么需要独立的角色?因为 AI 在自己的上下文里工作时,无法对自己"内观"——"不识庐山真面目,只缘身在此山中"。你需要一个站在外面的观察者(Observer),看整个系统运行得怎么样;还需要一个架构师(Architect),根据观察结果决定该怎么调整环境。

04
从 Manager 到 Architect 的范式转变

这可能是最重要的一个认知转变。过去我们跟 AI 协作,本质上是"Manager 模式"——像经理带下属一样,一步步检查、纠错、指导。现在需要切换到"Architect 模式"——像系统架构师一样,设计环境和规则,然后放手让 AI 自己探索。

维度 Manager 模式 Architect 模式
关注什么 每一步输出是否正确 环境、目标、衡量标准是否正确
日常操作 "这个不对,应该这样改" "目标是 X,标准是 Y,自己找路"
人的价值 知道怎么做(路径知识) 知道什么是"好"(判断力)
可衡量的部分 人来逐步判断 AI 自我进化、自我优化
不可衡量的部分 通常被忽略 由人来定义标准(品味、价值观)

关键原则:可衡量的,让 AI 自我进化。不可衡量的,由人来设计标准。

什么是可衡量的?代码是否通过测试、部署是否成功、性能指标是否达标——这些有明确的好坏标准,AI 完全可以自己判断和优化。

什么是不可衡量的?"这篇文章的叙事有没有品味"、"这个教育方案是否真正关注了学生"、"这个产品决策是否符合价值观"——这些需要人来定义标准。这也是 AI 时代人最核心的价值所在。

05
自我进化的自治系统架构

把前面的洞察组合起来,就形成了一个四层自治系统的架构设想:

四层架构示意
┌─────────────────────────────────────────────────────────┐
│  Architect Layer  (定义目标 · 设计环境 · 制定衡量标准)   │
│         ↑ 反馈                             ↓ 指令        │
├─────────────────────────────────────────────────────────┤
│  Observer Layer   (监控运行 · 评估质量 · 触发调整)       │
│         ↑ 数据                             ↓ 信号        │
├─────────────────────────────────────────────────────────┤
│  Main Agent       (主执行 · 任务分解 · 上下文管理)       │
│         ↓ 子任务                           ↑ 结果        │
├─────────────────────────────────────────────────────────┤
│  Sub-Agents       (并行执行 · 专域能力 · 独立记忆)       │
└─────────────────────────────────────────────────────────┘

关键:人只存在于 Architect Layer,其余三层由 AI 自主运转

底下两层(Main Agent + Sub-Agents)负责干活,这是目前大多数 AI 工具已经在做的事情。上面两层是新增的:Observer 持续观察系统运行效果,Architect 根据观察结果调整环境和规则。

这与 OpenAI 提出的 Harness Engineering 逻辑一致,但增加了一层关键设计:AI 不仅要收敛(找到已知最优解),还要发散(探索未知可能性)。 先发散后收敛,在交替中涌现超出预期的洞察——这才是活系统和机械系统的本质区别。

06
编排的半衰期约为半年

你今天精心设计的工作流编排,半年后大概率过时。不是因为设计得不好,而是因为模型能力在进化。

半年前需要 5 个 Skill、3 个子代理、一套复杂的闭环验证流程才能完成的任务,现在可能只需要一句话描述目标就行了。就像一个足够聪明的新员工,你什么都不用教,他自己看完知识库就能上手——你之前设计的那套"新员工培训流程"自然就失效了。

这意味着两件事:

1. 编排是战术,架构是战略。 不要把最多的精力花在打磨编排细节上。编排的边际收益会随模型进化趋近于零。

2. 优先构建不会过时的东西——上下文完备度(你的知识库、经验库、价值观描述)和记忆持久化机制(怎么积累经验、怎么索引知识)。这些是真正的资产,不会因为模型换代而失效。

07
记忆持久化三步法

AI 要变聪明,光靠模型升级不够——它需要一套记忆积累机制,就像人通过经验变聪明一样。三步缺一不可:

第一步:建立规则。 告诉 AI 怎么工作。犯了错必须反思,把错误原因记录下来。遇到不确定的假设时先暂停,问自己"还有没有其他可能性"——先广度搜索,再深度搜索,不要一条路走到黑。

第二步:建立索引。 给 AI 一张"地图"——你有哪些知识库、调研文档、过往经验,它们在哪里、关于什么主题。索引本身不需要很长(1000-1500 字足够),但背后链接的知识库可以非常庞大。关键是让 AI 知道"去哪里找"。

第三步:沉淀踩坑经验。 每次遇到新问题并解决后,把解决方案更新到索引里。下次遇到相同问题,AI 直接复用——不用从头推理,不会再犯同样的错。

这是一个滚雪球的过程:索引越来越完善 → AI 越来越聪明 → 犯的错越来越少 → 积累的经验越来越多。单纯堆 CLAUDE.md 写一大堆规则是"伪持久化"——没有索引和经验沉淀,规则只是静态文本,不是活的记忆。

08
三种力量构成活系统

一个有生命力的 AI 系统(不是机械执行的自动化脚本)需要三种力量同时在场:

递归是引擎——简单规则不断自我展开。每完成一轮任务,不是停下来等指令,而是自己问"基于现在知道的一切,最值得做的下一件事是什么?"然后继续。就像一个有自驱力的员工,做完手头的事会自动找下一件事做。

迭代是方向盘——在反馈中螺旋上升。做了一件事 → 看结果 → 发现问题 → 修正 → 再做。闭环验证就是迭代机制的具体实现。没有迭代,递归会跑偏;没有反馈,系统会在错误方向上越走越远。

涌现是两者运行足够久后的意外产物——自下而上的创造。当你给 AI 足够的上下文和自由度,它会产出你没有预想到的东西。涌现不能被计划,但可以被允许——你要做的是创造条件,而不是规定结果。

三者的嵌套关系:递归提供持续性(不停下来),迭代提供方向性(不跑偏),涌现是两者运行足够久之后自然发生的事。

09
永远从 Why 开始

不要跟 AI 讲"你应该怎么做",只告诉它你最终想要达到什么。

为什么?因为当你基于自己的经验去拆解任务路径时,这个拆解本身可能就是错的。人类习惯用传统的组织逻辑来分解问题——先做 A、再做 B、最后做 C。但 AI 的工作方式完全不同,它可能会找到一条你完全没想到的、更好的路径。你的中间步骤规划,反而限制了 AI 的发挥空间。

一个典型的例子:"帮我写一个解析 JSON 的函数"是 V1.0 的说法;"我需要从这个 API 获取用户数据并展示在页面上,你来设计方案"是 V4.0 的说法。后者给了 AI 足够的自主空间,它可能会告诉你其实不需要手动解析,直接用某个库就行。

当然,这对模型能力有要求。给高层目标而不给中间步骤,需要 AI 有强逻辑推理、自我反思、不偏离目标的稳定性。顶级模型(如 Opus)收敛速度快得多,弱模型容易做着做着就偏了。所以 模型能力决定你能在多高的抽象层级上跟它对话。

三个实践中做出的关键判断

决策 1

上下文完备度优先于编排优化

判断:在优化工作流编排之前,必须先确保上下文完备度达标。

原因:上下文是真正的瓶颈。再精妙的编排,在残缺的上下文上都会失效。反之,完备的上下文配合简单编排,往往产出更好。

实际影响:知识库、记忆系统、经验索引的建设优先于任何工作流自动化投入。

决策 2

用隔夜实验验证 AI 自主发散的可行性

判断:让 AI 在无人干预的情况下,自主阅读用户的笔记和文档,发现兴趣交叉点,产出调研报告。

结果:实验成功。AI 产出了 10 个领域的调研报告,核心结论是"上下文工程是 AI 的能力,意义工程是人的能力"。

待解决:AI 会不断停下来等指令,需要外部循环机制让它真正持续运行。

决策 3

构建者即使用者

判断:方法论的构建者本身就是最重的使用者。自己开发工具、自己每天用、自己发现问题、自己迭代。

原因:构建者 × 使用者的循环速度极快,不需要团队做需求分析。日常使用就是持续集成测试。

成本:Claude Max + Google Ultra + Codex ≈ $600/月,远低于招聘一个员工,但产出的迭代速度极快。

5 个待解的关键问题

01
P0

外部循环模块

AI 目前无法自主持续运行——每次都需要人来启动一轮对话。隔夜实验中 AI 会不断停下来等指令。需要一个外部触发机制,让 AI 可以定时自我启动、在发散和收敛之间自主切换。这是 V4.0 架构真正落地的最后一个技术障碍。

02
P0

不可衡量标准的设计方法论

"可衡量的让 AI 自进化"这条原则很清晰。但品味、叙事质量、教育理念这些不可衡量的维度,怎么转化为 AI 可以理解和对齐的标准?这是人在 AI 时代最核心的价值点,但目前只能靠直觉,没有系统性的方法论。

03
P1

上下文碎片化的系统性解决

笔记在 App 里,文档在飞书,聊天在微信,代码在 GitHub。当前方案是逐个打通(为每个平台写 MCP 接口),但这是线性增长的工作量。需要一个统一的上下文聚合层,让 AI 不管信息在哪个平台,都能即时获取。

04
P1

三平台协同

OpenClaw 擅长上下文触达(飞书打通),Claude Code 擅长工程执行(Opus 模型强),Codex 擅长纯代码生成(GPT-5.4)。三者各有优势但相互独立。需要在三者之间建立调度层:规划在 OpenClaw,执行在 Claude Code,编码在 Codex。

05
P2

理论的适用范围

这些认知目前主要来自个人的密集实践。"上下文完备度 > 编排优化"这个结论在更广泛的团队场景、不同行业中是否成立?什么情况下这些结论可能失效?需要跨场景的验证。