一句话总结:监督型管的是「agent 现在跑得对不对」,驯化型管的是「agent 跑得好不好」。看你要的是”实时看到哪步错了”还是”测试评分给出 60→85 分怎么调”。
本质区别:干预时点不同
监督型 (Supervisor) —— 看的是「现在 / 这一轮」。你跑到一半发现 token 涨太快、回答开始偏、写到一个小时还没出活,你实时干预。W3 的 P3(AI 研究员)和我本人都属于这一类。
驯化型 (Trainer) —— 看的是「过去 + 未来」。你跑出一个 agent,让它反复答 50 道测试题,看评分;调整 prompt,再答 50 道;再调,再答。F5 失败案例里把 agent 调到 100% 测试通过、上 prod 只有 32% —— 这是驯化型经典翻车。
监督型 = “我盯得住的活” 驯化型 = “我设计得出 rubric 的活”
如果你能写出”这一篇应该含 X 个要点、Y 个 keyword、Z 个 skill” —— 驯化型跑起来。 如果你只能写”我盯着 agent,看到不对劲就喊停” —— 监督型跑起来。
决策矩阵:什么任务用哪个
| 任务类型 | 监督型 | 驯化型 |
|---|---|---|
| 长任务(>30 min、>1 万字) | ✅ | — |
| 多 agent 流水线(5+ agent 接力) | ✅ | — |
| 持续生产(SaaS 后端自动化) | ✅ | ⚠️(先驯化型调好 prompt 再上) |
| 训练一个客服 agent | — | ✅ |
| 训练一个分类器(垃圾邮件、code review) | — | ✅ |
| 测试一个 agent 的稳定性 | ✅ | ⚠️ |
| 训练一个 AI 角色(对话 NPC、虚拟助手) | — | ✅ |
监督型的 5 个具体信号
你的活适合监督型,如果它满足以下任意 3 个:
- 长 —— 跑超过 30 分钟(Claude 4 长任务、W2 偏方 T6 写过稳定性)
- 贵 —— 跑一次超过 1 美元算力
- 不可逆 —— 跑出来后你不能轻易重跑(涉及外部副作用:发邮件、commit 代码、付款)
- 可视化有意义 —— 你看到中间过程能纠偏,而不是”反正结果都一样”
- 多 agent 流水线 —— 5 个 agent 接力,前一个跑挂了后面全挂
满足任意 3 个 —— 监督型。
W3 P3(AI 研究员)读 paper 这件事满足 3 个:长(每篇 30 分钟)、贵(4 个模型并行)、可视化有意义(他要逐段对比 4 个模型的 claim)。所以他是监督型用户。
W3 P5(客服运营)做 batch 工单 routing,反过来 —— 也不长也不贵也不可逆,所以她是其他用法(对话型)。
驯化型的 5 个具体信号
你的活适合驯化型,如果它满足以下任意 3 个:
- 可重复 —— 同一个问题能问 50 次不同变种
- 可评分 —— 你能写出评分 rubric(“答得对 = 引用了 §X;答得好 = 还引用了 §X + §Y 关联”)
- 可积累 —— 调教出来的 prompt 可以复用 6 个月以上
- 量大 —— 测试集 50-500 道题
- 稳定优先 —— 答得不太有趣没关系,但答得稳定才有用
满足任意 3 个 —— 驯化型。
W3 P4(设计师)训练 MJ + Claude 出品牌物料 — 满足 3 个:可重复(300+ 张图)、可评分(4 维度 0-5 分)、量大。所以她是驯化型用户。
W3 P2(独立开发者)训客服 agent — 满足 4 个:可重复(500 工单)、可评分、有 rubric、量大。所以他也是驯化型用户。
监督型的工具栈长啥样
监督型的”工具”基本是可视化 + log:
- 可视化面板:W2 偏方 T7 写的 cache 命中率 dashboard
- 实时 log:spinner + 进度条 + 当前 step
- 超时预警:30 分钟还没出 → 暂停人工看
- 手动打断:跑废了立刻 stop,别让它浪费更多算力
- checkpoint review:跑完 1/3 review 一次,再决定继续 / 终止
驯化型的工具栈长啥样
驯化型的”工具”基本是测试集 + 评分:
- 测试集:50-500 道题,JSON / CSV / database
- 评分 rubric:要么 LLM-as-judge(Claude 评 Claude),要么 rule-based(regex、exact match)
- 评估 pipeline:prompt v1 → 跑测试 → 看评分 → 改 prompt → 跑测试 → …
- 测试分类:分 happy path / edge case / adversarial,分开统计通过率
- 版本管理:每个 prompt 版本存 git,按日期 / 评分排序
- 回归测试:调过 prompt,重新跑旧测试集,确认老的不退化
W4 F5 失败案例里 —— 测试集 50 题、评分用 LLM-as-judge、跑 5 轮迭代,看上去”科学”。但失败在测试集和 prod 不分布一致(设计上的经典坑,下面会展开)。
监督型 → 驯化型 / 反向切换
监督型的优化目标是「保住这次」:
- 这次跑挂 → 立刻 stop,减少损失
- 这次跑太慢 → 下次换 routing
- 这次跑偏 → 中途纠偏
驯化型的优化目标是「下次更好」:
- 这次跑挂 → 没关系,记到 log,下次改 prompt
- 这次跑太慢 → eval 看哪 step 长,调 prompt 让它跳过
- 这次跑偏 → 改 prompt、扩测试集覆盖
两种思维模式完全不同。 如果你发现你最近 3 次失败案例都是「跑了 1 次挂了」才反思 —— 你是监督型。如果是「跑了 5 次都差不多挂法,我才写测试集」 —— 你是驯化型。
F5 驯化型失败复盘 — 测试集不是 prod
W4 F5 的核心错误:测试集是精心挑选的 50 题,prod 是用户真实 1.3 万条 query。两者分布不一致。
3 个驯化型的关键避坑:
- 测试集要采样 prod,不要自己编。拿最近一周 prod 数据 + 一些 adversarial,等比例。
- 指标要分维度:不要只报一个总分。F5 总分 100% 但子维度「跨产品路由」只有 32% —— 驯化型用户最容易在单点上 overfit。
- 每调一次,跑一次回归测试。驯化型改了 prompt,新测试集涨 5 分,但旧测试集跌 3 分 —— 你要看得见。
你属于哪个?看这 5 个信号
- 你工作中最常干的事是「盯着跑」 → 监督型
- 你工作中最常干的事是「写测试、跑评估、改 prompt」 → 驯化型
- 你最近最常反思的是「这一次为什么挂了」 → 监督型
- 你最近最常反思的是「为什么 prod 跟测试差这么多」 → 驯化型
- 你的 agent 跑挂的主要原因是「中途偏差」 → 监督型;「根本没设计对」 → 驯化型
3 题以上选同一边的 —— 那就是你的用法。
5 个用法,总结到一张图
最后,把 W5 三期的决策合到一张图:
| 任务 | 用法 |
|---|---|
| 任务目标 + 验收 + 边界都写清楚了 | Commander(指挥型) |
| 目标有,但 brief 不完善、想一句一句磨 | Conversationalist(对话型) |
| 任务长 / 贵 / 不可逆,要实时看到过程 | Supervisor(监督型) |
| 自己也没方向,要一起摸 | Co-thinker(共生型) |
| 可重复 + 可评分 + 可积累 | Trainer(驯化型) |
5 种用法,每种都有它的「擅长区」和「漂亮地死在不该死的活上的姿势」。W4 失败案例 F1-F5 写了 5 种典型翻车。W5 决策 D1-D3 写了怎么选型。
W6+ 我准备写”5 种用法的混合”—— 一个项目里同时用 2-3 种用法,应该怎么组合。订阅怪招本,下一期见。
怪招本 · W5 · 决策周