监督型 vs 驯化型 —— 你的活是「边跑边盯」还是「调教出最好的」？

一句话总结：监督型管的是「agent 现在跑得对不对」，驯化型管的是「agent 跑得好不好」。看你要的是”实时看到哪步错了”还是”测试评分给出 60→85 分怎么调”。

alt

本质区别：干预时点不同

监督型 (Supervisor) —— 看的是「现在 / 这一轮」。你跑到一半发现 token 涨太快、回答开始偏、写到一个小时还没出活，你实时干预。W3 的 P3（AI 研究员）和我本人都属于这一类。

驯化型 (Trainer) —— 看的是「过去 + 未来」。你跑出一个 agent，让它反复答 50 道测试题，看评分；调整 prompt，再答 50 道；再调，再答。F5 失败案例里把 agent 调到 100% 测试通过、上 prod 只有 32% —— 这是驯化型经典翻车。

监督型 = “我盯得住的活” 驯化型 = “我设计得出 rubric 的活”

如果你能写出”这一篇应该含 X 个要点、Y 个 keyword、Z 个 skill” —— 驯化型跑起来。如果你只能写”我盯着 agent，看到不对劲就喊停” —— 监督型跑起来。

你的活适合监督型，如果它满足以下任意 3 个：

满足任意 3 个 —— 监督型。

W3 P3（AI 研究员）读 paper 这件事满足 3 个：长（每篇 30 分钟）、贵（4 个模型并行）、可视化有意义（他要逐段对比 4 个模型的 claim）。所以他是监督型用户。

W3 P5（客服运营）做 batch 工单 routing，反过来 —— 也不长也不贵也不可逆，所以她是其他用法（对话型）。

你的活适合驯化型，如果它满足以下任意 3 个：

满足任意 3 个 —— 驯化型。

W3 P4（设计师）训练 MJ + Claude 出品牌物料 — 满足 3 个：可重复（300+ 张图）、可评分（4 维度 0-5 分）、量大。所以她是驯化型用户。

W3 P2（独立开发者）训客服 agent — 满足 4 个：可重复（500 工单）、可评分、有 rubric、量大。所以他也是驯化型用户。

监督型的”工具”基本是可视化 + log：

驯化型的”工具”基本是测试集 + 评分：

W4 F5 失败案例里 —— 测试集 50 题、评分用 LLM-as-judge、跑 5 轮迭代，看上去”科学”。但失败在测试集和 prod 不分布一致（设计上的经典坑，下面会展开）。

监督型的优化目标是「保住这次」：

驯化型的优化目标是「下次更好」：

两种思维模式完全不同。 如果你发现你最近 3 次失败案例都是「跑了 1 次挂了」才反思 —— 你是监督型。如果是「跑了 5 次都差不多挂法，我才写测试集」 —— 你是驯化型。

W4 F5 的核心错误：测试集是精心挑选的 50 题，prod 是用户真实 1.3 万条 query。两者分布不一致。

3 个驯化型的关键避坑：

3 题以上选同一边的 —— 那就是你的用法。

最后，把 W5 三期的决策合到一张图：

5 种用法，每种都有它的「擅长区」和「漂亮地死在不该死的活上的姿势」。W4 失败案例 F1-F5 写了 5 种典型翻车。W5 决策 D1-D3 写了怎么选型。