5 种用法的混合 —— 一个真实项目里它们是怎么排的

一句话总结：5 种用法从来不是单选题。一个项目从 0 到 1 通常跑 4-5 stage 接力：Co-thinker → Conversationalist → Commander → Supervisor → Trainer。这一篇拆 2 个真实案例，看每种 type 在哪个 stage 上场、为什么这样排、怎么切换不踩雷。

alt

为什么 W5 不够用

W5 的 D1 / D2 / D3 教的是「单一选型」：5 个信号告诉我该派 Commander 还是 Conversationalist，6 个判断告诉我这是监督型还是驯化型。这些判断有用，但只在某一个具体任务上有用。

实际项目里，一个项目从 0 到 1 通常要用 2-4 种用法接力。你要决定的不只是「这一步派谁」，而是「接下来 4 周里，谁先谁后、谁接谁的班」。

我自己 14 个月踩过最大的坑，不是派错 type，是排错顺序。有一次让 Commander 先跑 Co-thinker 的活，结果 1 周后才发现方向错了，重跑一次又 1 周。

W6 解决的就是这个：5 种用法在时间轴上怎么排。

一个项目的 5-stage 工作流

下表是我从 14 个月生产里归纳出来的 5 stage 模式。每个项目不一定走完 5 stage，但跑得最顺的项目通常都跑过至少 3 stage。

Stage	用法	时长占比	关键动作
1. 探方向	Co-thinker	10-20%	反问 5 轮，把模糊变清楚
2. 磨细节	Conversationalist	20-30%	一句一句写 brief、写 spec
3. 批量执行	Commander	30-50%	拆 N 段 brief 派出去
4. 监控质量	Supervisor	10-20%	设检查点，失败就拦
5. 沉淀复盘	Trainer	5-10%	把 prompt 沉淀到团队 wiki

关键不是 stage 数量，是顺序。Stage 1-2 不能跳过，跳过 W5 D2 失败案例 F2 的悲剧就是 21 天 chat 攒 5 万字废话稿。Stage 3 不能放第一位，W4 F1 我自己写的 760 美元烧光就是这个。

下面拆 2 个真实案例。

Case A：怪招本 v3 改版（4 周 / 跑了 4 stage）

2026 年 6 月，我决定把怪招本从 3 篇手记扩成 26 页完整类型志。

Stage 1（2 天）· Co-thinker 探方向

我自己定不下要不要扩。我用 Co-thinker 反问了 5 轮，没有让它给方案，让它反问我的前提：

「你说的’类型志’，是指 5 种 type 的对比，还是一种 type 的深度？」
「你想服务的是 ‘我邻居也在用 agent’ 这种新手，还是’我自己也在用 agent’这种熟手？」
「如果你不扩，你现在最不爽的是哪一点？」

到第 5 轮我自己想清楚了：扩成”5 种类型对比 + 5 段真实工作流”，不是”5 段深度 type 档案”。这一步只花 2 天，省掉后面 4 周的 50% 返工。

Stage 2（5 天）· Conversationalist 磨 detail

Stage 1 把方向定下来”对比 + 工作流”，但具体每个 type 写哪些维度，是 Conversationalist 的活。我一句一句磨：

我：这 5 种 type 我打算用一张表对比。
AI：哪几个维度？5 个？7 个？
我：5 个就够。但维度名字要中英双标。
AI：比如？
我：name / en / tag / illu / use-case。
AI：illu 是插画？要不要画风统一？
我：要。每张图只用一种 stroke 色 + 极简单色。
AI：哪种颜色？amber? 
我：对，amber #c8a449。

这 5 天我没写一行 code，只磨结构和样式。但 Stage 3 的 Commander 跑了 4 小时就能完成，是因为 Stage 2 把 brief 拆得足够细。

Stage 3（4 小时）· Commander 批量执行

26 页结构、5 个 type、5 张 SVG、5 色 accent —— 一次改版。C6 case 写了完整 brief 拆解。Commander 跑 4 小时，关键 brief：

任务背景：v3 类型志改版，amber accent，张艺谋电影色
目标：26 页 · 5 type · 5 illu · 5 color
验收：每页布局一致 / 每张 illu 用同 stroke / 每个 type 配同颜色
边界：不动底部 footer / 不动 RSS / 不动订阅逻辑
例外：4 张 SVGs 之后上线

Commander 跑得好的关键是 Stage 2 的 brief。Stage 2 没磨 detail，Commander 会把它做漂亮但方向错。

Stage 4（2 周）· Supervisor 质量监控

Commander 一次跑完所有 26 页。然后我让 Supervisor 跑质量一致性检查。C8 case 写了完整过程：第一版失败率 40%（类型名拼错、颜色错配、illu 漏图），调了 3 处 review 标准后砍到 8%。

Supervisor 这一步不是冗余。Stage 3 的 Commander 不做自我检查 —— 它把 brief 当真理，做”漂亮地偏离”。

Stage 5（1 周）· Trainer 沉淀

Stage 3 跑完最后，我把这次改版的 prompt 模板沉淀到团队 wiki：

# 改版项目 brief 模板（v3 验证版）

## 5 段 brief 顺序
1. 背景（1 段 / 现状是什么）
2. 目标（1-2 句 / 跑完世界变成什么样）
3. 验收（3-5 条 / 可量化）
4. 边界（不能动什么）
5. 例外（特殊情况）

## 配套
- 视觉 token 表（amber / 4 备选色 / Source Serif Pro / JetBrains Mono）
- illu 风格约束（stroke 单色 + 极简 + 240x240）
- 排版 token（section padding clamp 80-160px / h1 96-168px / h2 clamp 28-48）

下次再改版，Stage 1 都不用从 0 开始 —— 直接套这套模板，能省 1 周。

Case B：写小说《妖管局》第 23 章（5 天 / 跑了 4 stage）

写小说跟改版完全不一样，但 5-stage 同样适用。

Stage 1（1 天）· Co-thinker

我有”第 23 章要写主角第一次面对妖管局内鬼”的方向，但不知道”内鬼”该是谁。我用 Co-thinker 反问 3 轮：

「你说’内鬼’，是指’主角一直信任的师父’这种精神背叛，还是’主角从未见过的隐藏反派’？」
「如果选师父，主角的动机变化会怎么走？」
「你想让读者第 23 章读完感到’震惊但合理’，还是’早被暗示过’？」

我选了”师父”。“震惊但合理”。

Stage 2（2 天）· Conversationalist

磨章节骨架：

开场：主角在食堂吃饭
转折 1：看到师父反常的动作
转折 2：师父说漏嘴
高潮：主角当面质问
结尾：师父不答，转身走

这 5 个 beat 是 Conversationalist 帮我磨出来的。它每一句都会反问”这个 beat 够具体吗”、“主角这个时刻的内心活动能不能再深一层”。

Stage 3（4 小时）· Commander

3000 字成稿。我把 5 个 beat 各 600 字写成 5 段 brief 派给 Commander，每段 30 分钟。重点：brief 必须写到 600 字剧本级别。比改版项目更需要细 brief，因为改版能补 bug，文字错了救不回来。

Stage 4（2 小时）· Supervisor

读一遍，对照 brief 看有没有 beat 缺失，看有没有错别字 / 时态混乱 / 视角漂移。

Stage 5（1 天）· Trainer

把”5 beat × 600 字”模板沉淀成 prompt：

# 章节 brief 模板（5 beat 骨架版）

开 / 转 1 / 转 2 / 高 / 尾 各 1 段
每段 600 字剧本级
每个 beat 含：场景 / 角色动作 / 内心独白 / 节奏提示

下次写第 24 章，直接套这个模板，Stage 2 跳过，直接进 Commander。

5-stage 顺序的 5 条硬规则

14 个月踩出来的 5 条反直觉的规则：

规则 1：Co-thinker 不能跳过，跳了就 W4 F2

反例：W4 F2 我直接派 Conversationalist 写 5 万字书评。结果 30 处编造。

正例：每次新任务，先花 30 分钟跟 Co-thinker 反问 3-5 轮。哪怕你心里”已经清楚了”，也走一遍。问出来的东西会让你惊讶。

规则 2：Conversationalist 不能给 Commander 替

Conversationalist 磨完 brief，Commander 跑；这是顺序。如果 Conversationalist 直接出”成品”（绕过 Commander），你得到的就是 W4 F4 的 3 周 yes-man。

判断 Conversationalist 是不是在越界：它交付物如果是”完整段落”而不是”brief 段落” —— 越界了。

规则 3：Commander 失败后必须回到 Stage 2

不要”再跑一次 Commander”。Commander 的错误不是 brief 的执行错误，是 brief 本身错了。Commander 跑出来的”漂亮地偏离”，要回去查 Stage 2 的 brief 是不是漏了什么维度。

F1 我一开始就是连续派 Commander 跑了 3 次，每次都漂亮地偏离客户要的。第三次失败我才回去看 Stage 2 —— 发现 brief 里完全没提”客户到底要什么”。

规则 4：Supervisor 一定不能省

反例：W4 F3 我省了 Supervisor，让多 agent 流水线跑 12 小时。结果 4 小时 prod 挂机。

正例：每次 Commander 跑超过 1 小时，必须配 Supervisor。Supervisor 至少设 3 个检查点：开跑前 / 中段 / 完结前。

规则 5：Trainer 不写就浪费了 Stage 1-4 的所有踩坑

每个项目跑完，花 30 分钟把 prompt 模板写下来。30 分钟换下次同样类型项目省 3-7 天。

我自己的 Trainer prompt wiki 沉淀了 30+ 模板：

改版项目 brief
5 beat 章节
客服工单 routing
长任务 8h 稳定性
等等

5-stage 顺序的 5 种变体

不同类型项目，5 stage 比例不一样：

Variant 1：紧急小项目（1-3 天）

跳过 Stage 5，跳过 Stage 1 直接 Stage 2。适合已经做过很多次的项目。例：每月发一封 newsletter。

Variant 2：探索性大项目（4-8 周）

跑完 5 stage。例：怪招本 v3 改版。

Variant 3：持续生产项目（每月循环）

跑 Stage 2 + 3 + 4 + 5，跳过 Stage 1（方向已定）。例：每天的怪招本周更。

Variant 4：研究性项目（3-6 月）

Stage 1 占 50%，多次 Co-thinker + Conversationalist 交替。Stage 3-5 在最后 1 个月跑。

Variant 5：客户定制项目（一次性）

Stage 1 占 30%（一定搞清客户要什么），Stage 3 跑 60%（按 brief 批量出活），Stage 5 占 10%（沉淀到内部 wiki，给下次客户用）。

怎么判断项目走完 5 stage 了？

5 个信号：

Stage 1 done：你能用一句话说清”跑完这个项目世界应该变成什么样”。
Stage 2 done：你的 brief 能让一个没参与项目的人派 Commander 跑 80% 准确率。
Stage 3 done：Commander 跑出来的成品对验收标准 100% 命中。
Stage 4 done：Supervisor 检查失败率 < 10%。
Stage 5 done：prompt 模板写下来，能给同事用。

5 题里 3 题以上 done，可以收工。否则继续循环。

一句话总结

5 种用法的混合不是同时用，是按 5-stage 接力。Co-thinker → Conversationalist → Commander → Supervisor → Trainer。跳 stage 是最快的失败方式。W4 失败案例 F1-F5 的所有翻车，归根结底是 stage 顺序错了或 stage 跳了。

下次启动一个新项目，先画 5-stage 时间轴。每个 stage 派一个 type，每个 stage 都有验收。Stage 5 一定写 prompt 模板，这是把一次性项目变成团队资产的唯一方式。

下一期 M2：「5 种用法在 1 天里同时跑」 —— 当一个项目紧急到 5 stage 必须压缩到 1 天时，怎么排不踩雷。比如”今天必须上线，老板在催”。

订阅怪招本，每周二早 8 点定时发。