首页 决策 N° D3
D3 decision · 决策周
A 监督型
vs
B 驯化型

监督型 vs 驯化型 —— 你的活是「边跑边盯」还是「调教出最好的」?

verdict 看你做"看"还是"评"

监督型是把 agent 当「实习生」看,驯化型是把 agent 当「培训师」看。前者要可视化、要看 log、要能在踩雷前拦截;后者要测试集、要评分 rubric、要能在 10 轮迭代里把 agent 调教到你想的样子。

2026-07-05 · 14 分钟 阅读 · W5 · DECISION

一句话总结:监督型管的是「agent 现在跑得对不对」,驯化型管的是「agent 跑得好不好」。看你要的是”实时看到哪步错了”还是”测试评分给出 60→85 分怎么调”。

alt

本质区别:干预时点不同

监督型 (Supervisor) —— 看的是「现在 / 这一轮」。你跑到一半发现 token 涨太快、回答开始偏、写到一个小时还没出活,你实时干预。W3 的 P3(AI 研究员)和我本人都属于这一类。

驯化型 (Trainer) —— 看的是「过去 + 未来」。你跑出一个 agent,让它反复答 50 道测试题,看评分;调整 prompt,再答 50 道;再调,再答。F5 失败案例里把 agent 调到 100% 测试通过、上 prod 只有 32% —— 这是驯化型经典翻车。

监督型 = “我盯得住的活” 驯化型 = “我设计得出 rubric 的活”

如果你能写出”这一篇应该含 X 个要点、Y 个 keyword、Z 个 skill” —— 驯化型跑起来。 如果你只能写”我盯着 agent,看到不对劲就喊停” —— 监督型跑起来。

决策矩阵:什么任务用哪个

任务类型监督型驯化型
长任务(>30 min、>1 万字)
多 agent 流水线(5+ agent 接力)
持续生产(SaaS 后端自动化)⚠️(先驯化型调好 prompt 再上)
训练一个客服 agent
训练一个分类器(垃圾邮件、code review)
测试一个 agent 的稳定性⚠️
训练一个 AI 角色(对话 NPC、虚拟助手)

监督型的 5 个具体信号

你的活适合监督型,如果它满足以下任意 3 个:

  1. —— 跑超过 30 分钟(Claude 4 长任务、W2 偏方 T6 写过稳定性)
  2. —— 跑一次超过 1 美元算力
  3. 不可逆 —— 跑出来后你不能轻易重跑(涉及外部副作用:发邮件、commit 代码、付款)
  4. 可视化有意义 —— 你看到中间过程能纠偏,而不是”反正结果都一样”
  5. 多 agent 流水线 —— 5 个 agent 接力,前一个跑挂了后面全挂

满足任意 3 个 —— 监督型。

W3 P3(AI 研究员)读 paper 这件事满足 3 个:长(每篇 30 分钟)、贵(4 个模型并行)、可视化有意义(他要逐段对比 4 个模型的 claim)。所以他是监督型用户。

W3 P5(客服运营)做 batch 工单 routing,反过来 —— 也不长也不贵也不可逆,所以她是其他用法(对话型)。

驯化型的 5 个具体信号

你的活适合驯化型,如果它满足以下任意 3 个:

  1. 可重复 —— 同一个问题能问 50 次不同变种
  2. 可评分 —— 你能写出评分 rubric(“答得对 = 引用了 §X;答得好 = 还引用了 §X + §Y 关联”)
  3. 可积累 —— 调教出来的 prompt 可以复用 6 个月以上
  4. 量大 —— 测试集 50-500 道题
  5. 稳定优先 —— 答得不太有趣没关系,但答得稳定才有用

满足任意 3 个 —— 驯化型。

W3 P4(设计师)训练 MJ + Claude 出品牌物料 — 满足 3 个:可重复(300+ 张图)、可评分(4 维度 0-5 分)、量大。所以她是驯化型用户。

W3 P2(独立开发者)训客服 agent — 满足 4 个:可重复(500 工单)、可评分、有 rubric、量大。所以他也是驯化型用户。

监督型的工具栈长啥样

监督型的”工具”基本是可视化 + log:

  • 可视化面板:W2 偏方 T7 写的 cache 命中率 dashboard
  • 实时 log:spinner + 进度条 + 当前 step
  • 超时预警:30 分钟还没出 → 暂停人工看
  • 手动打断:跑废了立刻 stop,别让它浪费更多算力
  • checkpoint review:跑完 1/3 review 一次,再决定继续 / 终止

驯化型的工具栈长啥样

驯化型的”工具”基本是测试集 + 评分:

  • 测试集:50-500 道题,JSON / CSV / database
  • 评分 rubric:要么 LLM-as-judge(Claude 评 Claude),要么 rule-based(regex、exact match)
  • 评估 pipeline:prompt v1 → 跑测试 → 看评分 → 改 prompt → 跑测试 → …
  • 测试分类:分 happy path / edge case / adversarial,分开统计通过率
  • 版本管理:每个 prompt 版本存 git,按日期 / 评分排序
  • 回归测试:调过 prompt,重新跑旧测试集,确认老的不退化

W4 F5 失败案例里 —— 测试集 50 题、评分用 LLM-as-judge、跑 5 轮迭代,看上去”科学”。但失败在测试集和 prod 不分布一致(设计上的经典坑,下面会展开)。

监督型 → 驯化型 / 反向切换

监督型的优化目标是「保住这次」:

  • 这次跑挂 → 立刻 stop,减少损失
  • 这次跑太慢 → 下次换 routing
  • 这次跑偏 → 中途纠偏

驯化型的优化目标是「下次更好」:

  • 这次跑挂 → 没关系,记到 log,下次改 prompt
  • 这次跑太慢 → eval 看哪 step 长,调 prompt 让它跳过
  • 这次跑偏 → 改 prompt、扩测试集覆盖

两种思维模式完全不同。 如果你发现你最近 3 次失败案例都是「跑了 1 次挂了」才反思 —— 你是监督型。如果是「跑了 5 次都差不多挂法,我才写测试集」 —— 你是驯化型。

F5 驯化型失败复盘 — 测试集不是 prod

W4 F5 的核心错误:测试集是精心挑选的 50 题,prod 是用户真实 1.3 万条 query。两者分布不一致。

F5 完整复盘

3 个驯化型的关键避坑:

  1. 测试集要采样 prod,不要自己编。拿最近一周 prod 数据 + 一些 adversarial,等比例。
  2. 指标要分维度:不要只报一个总分。F5 总分 100% 但子维度「跨产品路由」只有 32% —— 驯化型用户最容易在单点上 overfit。
  3. 每调一次,跑一次回归测试。驯化型改了 prompt,新测试集涨 5 分,但旧测试集跌 3 分 —— 你要看得见。

你属于哪个?看这 5 个信号

  1. 你工作中最常干的事是「盯着跑」 → 监督型
  2. 你工作中最常干的事是「写测试、跑评估、改 prompt」 → 驯化型
  3. 你最近最常反思的是「这一次为什么挂了」 → 监督型
  4. 你最近最常反思的是「为什么 prod 跟测试差这么多」 → 驯化型
  5. 你的 agent 跑挂的主要原因是「中途偏差」 → 监督型;「根本没设计对」 → 驯化型

3 题以上选同一边的 —— 那就是你的用法。

5 个用法,总结到一张图

最后,把 W5 三期的决策合到一张图:

任务用法
任务目标 + 验收 + 边界都写清楚了Commander(指挥型)
目标有,但 brief 不完善、想一句一句磨Conversationalist(对话型)
任务长 / 贵 / 不可逆,要实时看到过程Supervisor(监督型)
自己也没方向,要一起摸Co-thinker(共生型)
可重复 + 可评分 + 可积累Trainer(驯化型)

5 种用法,每种都有它的「擅长区」和「漂亮地死在不该死的活上的姿势」。W4 失败案例 F1-F5 写了 5 种典型翻车。W5 决策 D1-D3 写了怎么选型。

W6+ 我准备写”5 种用法的混合”—— 一个项目里同时用 2-3 种用法,应该怎么组合。订阅怪招本,下一期见。

DECIDED

怪招本 · W5 · 决策周