一句话总结:Commander 适合「3 件事都写清楚」的活 —— 目标、验收、边界。如果其中任何一件还是「先做着看吧」,别用 Commander,用对话型。
决策的本质:你愿不愿意承担「它做完了,但没做对」的代价
Commander 不是 chat,它是 fire-and-forget。你丢一段 brief,它跑一个 8 小时长任务,交付一个 1 万字报告。结果是好的,过程你是看不见的。
所以 Commander 的本质赌注是:你的 brief 写得足够好。写好了,省你 8 小时。写砸了,损失是 8 小时的算力 + 客户的等待时间(参见 W4 失败案例 F1)。
W4 的 F1 我让 Commander 跑了 1 周,改 200 个 SKU。结果是 200 个漂亮的 SKU,但客户要的不是这个 —— 客户要的是「重新设计整个描述策略」。等第 8 天发现时,已经 760 美元算力烧没了。
选 Commander 的 5 个信号
信号 ①:你的任务有可量化的验收
如果你能写出「这一批 50 篇文案每篇 80-120 字、含 3 个卖点、避开 5 个禁用词」 —— 你能上 Commander。
如果你写的是「这一批文案写得更好一点」、「做点高质量的」 —— 不能上 Commander。Commander 不知道「更好」多好多,它会停留在原始 brief 的字面意义上。
信号 ②:前置研究已经做完,你只要执行
Commander 不是研究员。它不会去主动 understand 你的产品价值、市场定位、用户画像。它假设你 brief 里写的就是真理。
反例:我的早期失败 F1。客户没说「重新设计描述策略」,我自己也没探。Commander 把 200 个原始描述按我 brief 重写成 200 个新描述,每次都很漂亮,每次都没用。
正例:C6 case —— MOCHA MILE 改版。设计师已经出完一版,新版设计稿都 ready,Commander 的活就是「把 7 屏改成 React 组件,按 Figma 字号/颜色 token 来」。Brief 写得很死,结果也是 4 小时搞定。
信号 ③:你愿意先写 1-2 小时 brief,省后面对话 8 小时
Commander 的成本不是 LLM 算力(其实只占 1/10),主要是你写 brief 的认知负担。写一份能跑通 Commander 的 brief ≈ 写一份「详细到 dissable 了 agent 自由发挥空间的」文档。
如果你讨厌写 brief、习惯一句话喊 agent 跑 —— 别用 Commander,用对话型(Conversationalist),它会反过来帮你把 brief 捋清楚。
信号 ④:失败是「浪费 1 次」,不是「永久损失」
Commander 失败一次的代价是「双倍算力 + 8 小时」。如果你这个任务「错了没关系,重做不心疼」 —— 上 Commander。
如果你这个任务「错了就翻了,客户跑路」 —— 别上 Commander,先用对话型跑 2 小时把方向摸清楚,再用 Commander 批量执行。
信号 ⑤:你不需要中途看到过程
如果你想「边跑边盯」 —— 选监督型(Supervisor)。它的核心价值就是让你可视化地看 agent 跑了多少 token、中间思考有没有偏移、超时前预警。
Commander 把过程完全藏在背后。它假设你不需要看 —— 你只需要看结果。结果对就行,过程是 agent 自己的事。
决策矩阵:什么任务该用 Commander
| 任务类型 | 用 Commander? | 替代方案 |
|---|---|---|
| 批量改稿、批量翻译、批量重写 | ✅ 是 | 监督型(如果想看进度) |
| 写一份完整 research 报告 | ⚠️ 谨慎 | 先对话型 2 小时,再 Commander 扩展 |
| 代码批量重构(按规则改) | ✅ 是 | 直接 hard-coded prompt |
| 设计 token 体系、设计 API 形态 | ❌ 否 | 共生型 |
| 写小说、写剧本、写营销文案 | ❌ 否 | 共生型 + 反复改 |
| 跑 A/B 实验、写测试 | ⚠️ 谨慎 | 驯化型 |
| 单纯聊天、写日记 | ❌ 否 | 对话型 |
怎么写一份 Commander 能跑好任务的 brief
F1 case 之后我整理出 5 段 brief 模板:
## 任务背景
[1 段 / 客户是谁 / 为什么不满意现状 / 你为什么接]
## 目标
[1-2 句 / 跑完这段 brief 之后世界应该变成什么样]
## 验收标准
[可量化的 / 80-120 字 / 3 个卖点 / 5 个禁用词
不要写"漂亮"、"高质量"这种抽象词]
## 边界(不能动的)
[不动标题 / 不改价格 / 不引新概念]
## 例外
[3 个特殊 SKU / 3 个特殊页 / 等等]
这套模板的核心是「把 agent 当一次性的外包」。你不希望它跟你对齐,不希望它跟你讨论「这样行不行」 —— 你只希望它按 brief 做完交差。
反例:Commander 的 5 种死法
最后,告诉你 5 种我见过的「Commander 派出去翻车」的死法,帮你避雷:
- brief 是模糊的(“写得更好一点”)—— agent 会停在它自己认为”足够好”的地方
- 目标是错的(F1 我自己写的 brief 客户根本不想要)—— agent 把它做漂亮交差,你不报警
- 边界没写 —— agent 会越界加东西,回头你说”我没让你加这个”
- 跑完不验收 —— agent 交差不代表客户能接受
- 单次跑太大(200 SKU 一气呵成)—— 应该拆 20 SKU 一批,先验证 brief 再全量
一句话判断流程
如果你正在考虑要不要派 Commander 出活,按这个流程问自己:
- 验收能不能写 3 条量化标准? 写不出 → 别用 Commander
- brief 写完你愿意花 1-2 小时吗? 不愿意 → 别用 Commander
- 失败一次代价你能承受? 不能 → 别用 Commander,先对话型摸方向
- 你不需要看过程? 想看 → 监督型
- 你能接受「错就重跑」? 不能 → 共生型 / 对话型
5 题里有 3 题以上选”用 Commander”,那它就是对的。否则 —— 5 种用法里还有 4 种,挑一种再试。
下一期 D2:对话型 vs 共生型 —— 什么时候该”磨一句”,什么时候该”让它帮你想”。
怪招本 · W5 · 决策周