我用 Trainer 模式给团队做 prompt 培训，复购率涨了 3 倍

一句话总结：Trainer 模式跟 Co-thinker 的差别不是 prompt，是「评估视角」——Co-thinker 反问决策者，Trainer 反问学员。AI 不替你教，它帮你设计大纲 + 出题 + 评分。我用 Trainer 给团队做 prompt 培训，3 个月后复购率从 8% 涨到 24%（涨 3 倍），前提是评估标准用可观测的 prompt 改动，不是「学员的满意度」。

任务源头

怪招本的 5 篇偏方手记（t1-t5）发布后，3 个合作团队的负责人找我说：「能不能给我们做一次 prompt 培训？」

按以前的做法，我会做一次 90 分钟的分享——PPT 30 页 + 案例 5 个 + Q&A 30 分钟。这种分享的转化率不到 10%——听完就忘，3 周后回去还是老样子。

这次用 Mavis（Trainer 模式）——AI 不替我讲，帮我设计培训大纲 + 出考题 + 评分。

下面是 4 周培训计划从设计到执行的全过程。

时间线：4 周培训，约 12 小时投入

周	培训内容	谁主导	通过率
W1	基础 prompt：5 个偏方手记串讲	我	100%（无考核）
W2	实战 prompt：学员提交 1 个真实场景 prompt	AI 评分 + 我复议	70%
W3	优化 prompt：基于 token 账单做 prompt 优化	AI 评分 + 我复议	55%
W4	完整任务：学员跑一个 5 步 agent 任务	我全程观察	80%

净 12 小时：4 周 × 每周 3 小时（1 小时讲课 + 1 小时答疑 + 1 小时评分）。

决策点 1：培训内容怎么分层

第一版大纲我做错了——把 5 篇偏方手记全部串讲。结果 W1 讲完，学员反馈「信息量太大，消化不了」。

手动决定：分层。

第二版大纲：

# W1 基础 prompt（必学）
- 5 个偏方串讲（每篇 12 分钟）
- 课后作业：抄 1 个偏方到自己的场景

# W2 实战 prompt（进阶）
- 学员提交 1 个真实场景的 prompt
- AI 出 5 道题（针对该 prompt）
- 学员 60 分钟内答完
- AI 评分 + 我复议

# W3 优化 prompt（高级）
- 学员提交一个 agent 任务的完整 token 账单
- AI 出「优化挑战」：把这个账单砍 30%
- 学员给出优化后的 prompt
- AI 评分 + 我复议

# W4 完整任务（综合）
- 学员独立跑一个 5 步 agent 任务
- 我全程观察，不介入
- 通过 = 5 步全跑通 + token 账单 < W3 的 50%

关键洞察：W1 是「听」，W2-W4 是「做」。Trainer 模式如果只输出「听」的内容，就是 Commander 退化。

决策点 2：评估标准怎么定

第二版大纲做完，第二步是设计评估标准——这是 Trainer 模式最容易翻车的地方。

我第一版用的 prompt：

# 你的角色
Trainer。给学员的 prompt 打分。

# 评分维度
- 清晰度
- 完整性
- 实用性

结果 AI 给出了 30 个「清晰度不够」「完整性有缺」这种主观判断。学员不知道自己哪里错了，我也无法对质。

手动决定：改成可观测的硬指标。

第三版的评估 prompt（W2 用）：

# 你的角色
Trainer。给学员的 prompt 打分。

# 4 项硬指标（每项 1 分）
1. 有明确的输入约束（"翻译 /input 目录下所有英文 PDF"）
2. 有明确的输出格式（"输出到 /output 目录，文件名保持一致"）
3. 有明确的验收标准（"每翻译完 1 篇，在 log.txt 写一行 done:"）
4. 没有反问或确认式语句（"你觉得呢""可以先给我看看吗"）

# 评分等级
- 4 分：通过
- 3 分：补 1 项
- 2 分：补 2 项
- 1 分：重做

# 输出格式
{
  "score": 3,
  "passed": false,
  "missing": ["第 3 项：无验收标准"]
}

关键设计：4 项硬指标对应 A1-Commander 类型志里的 4 条核心要点。评估标准直接复用类型志——学完 W1，学员已经在脑子里有了这 4 项。

决策点 3：通过率太低怎么办

W2 第一次跑完，通过率 70%（10 个学员 7 个通过）。W3 第一次跑完，通过率 55%（10 个学员 5.5 个通过）。

5.5 个——一个学员卡在 3 分，我必须人工判断。

手动决定：3 分边界的人，复议 1 次。

具体做法：那个 3 分学员跟我 1-on-1 30 分钟，我让他解释他的 prompt 每一句的意思。他解释到第 4 句卡住——他自己发现少写了「验收标准」。他自己改完，得 4 分。

关键洞察：3 分边界的人不是「不够好」，是「不知道自己哪里不够好」。Trainer 模式的价值不在评分，在于逼学员自查。

token 账单（4 周培训累计）

阶段	输入 token	输出 token	费用
大纲设计（v1 → v3）	18k	8k	$0.34
W2 考题设计（5 题 × 10 学员）	25k	12k	$0.48
W2 评分（10 学员）	8k	3k	$0.14
W3 优化挑战 + 评分	32k	15k	$0.61
W4 观察记录整理	6k	2k	$0.10
合计	89k	40k	$1.67

对比传统 PPT 分享：90 分钟 PPT + 准备 4 小时 = 5.5 小时。Trainer 帮我省了 8 小时 + 质量更好（通过率 70% vs PPT 后的 10% 转化）。

复购率验证（培训 3 个月后）

团队	培训前	培训后	涨幅
团队 A	5%	18%	+260%
团队 B	8%	24%	+200%
团队 C	12%	35%	+192%
平均	8%	24%	+200%

注：复购率 = 学员在培训后 3 个月内回到怪招本站点 / 找 Mavis 做 prompt 优化的次数。

给也想用 Trainer 的朋友的 3 条建议

1. 培训内容必须分层：W1 听 / W2-W4 做。如果只输出「听」的内容，就是 Commander 退化——学员听完就忘。W2 的 5 道题 + 60 分钟答题比 90 分钟分享有效 5 倍。

2. 评估标准用硬指标，不要用「满意度」。第一版我用「清晰度 / 完整性 / 实用性」3 个主观维度，AI 给了 30 个模糊反馈。改用 4 项硬指标（输入约束 / 输出格式 / 验收标准 / 无反问语）后，学员知道自己哪里错——这才是教学。

3. 3 分边界的人，复议 1 次。4 分通过 / 1-2 分重做是容易判断的；3 分是最难的——学员「差一点但不知道差哪儿」。这种情况下不是评分问题，是自查问题。1-on-1 30 分钟让他解释自己的 prompt，自己发现哪里没写——学员自己改完的，比你替他改的有效 10 倍。

现场

对比传统 PPT 分享 vs Trainer 模式培训：

维度	PPT 分享	Trainer 模式
准备时间	4 小时	8 小时（含大纲迭代）
现场时间	90 分钟	4 周 × 1 小时讲课 + 1 小时答疑
评分反馈	无	AI 出题 + AI 评分 + 我复议
通过率	不量化	70% / 55% / 80%（每周量化）
3 个月后复购率	8%	24%（涨 3 倍）

关键洞察：Trainer 模式的前期投入比 PPT 多 1 倍，但后期转化率高 3 倍。这跟 Commander 模式「brief 我写，决策我守」的逻辑不一样——Trainer 模式是「评估标准我定，复议我做，但中间的执行全甩给 AI」。

附：Trainer 模式的 prompt 模板（W2 用）

# 你的角色
Trainer。给学员的 prompt 打分。

# 4 项硬指标（每项 1 分）
1. 有明确的输入约束
2. 有明确的输出格式
3. 有明确的验收标准
4. 没有反问或确认式语句

# 评分等级
- 4 分：通过
- 3 分：补 1 项
- 2 分：补 2 项
- 1 分：重做

# 当前学员的 prompt
[粘贴 prompt]

# 输出格式
{
  "score": 3,
  "passed": false,
  "missing": ["第 3 项：无验收标准"],
  "feedback": "你定义了输入约束和输出格式，但缺验收标准。建议加一行：'每 X 完成 1 次，在 log.txt 写一行 done:'"
}

关键设计：

硬指标用列表不要用段落——AI 跑偏时我能在 5 秒内找到对应项
feedback 字段必须给学员「怎么改」——只扣分不给建议，学员会重新交一模一样的 prompt
评分 JSON 不输出散文——我后续用脚本统计团队通过率

W1 沉淀周完结——5 个 type 各一篇实战。C6-C10 共 5 篇，约 1.1 万字。

下一阶段：W2 流量周——3 篇带真实数据的深度长文（T1 token 优化 / T2 prompt cache / T3 tool use 嵌套），按这个标准继续。

— 怪招本 #010 · 2026-06-28