我用 Trainer 模式给团队做 prompt 培训,复购率涨了 3 倍
怪招本的 5 篇偏方手记火了之后,团队让我做一次内部分享。我用 Trainer 模式(AI 设计大纲 + 出题 + 评分),把 90 分钟的分享变成了 4 周的培训计划。Trainer 模式的核心不是教学,是**评估标准的颗粒度**。
一句话总结:Trainer 模式跟 Co-thinker 的差别不是 prompt,是「评估视角」——Co-thinker 反问决策者,Trainer 反问学员。AI 不替你教,它帮你设计大纲 + 出题 + 评分。我用 Trainer 给团队做 prompt 培训,3 个月后复购率从 8% 涨到 24%(涨 3 倍),前提是评估标准用可观测的 prompt 改动,不是「学员的满意度」。
任务源头
怪招本的 5 篇偏方手记(t1-t5)发布后,3 个合作团队的负责人找我说:「能不能给我们做一次 prompt 培训?」
按以前的做法,我会做一次 90 分钟的分享——PPT 30 页 + 案例 5 个 + Q&A 30 分钟。这种分享的转化率不到 10%——听完就忘,3 周后回去还是老样子。
这次用 Mavis(Trainer 模式)——AI 不替我讲,帮我设计培训大纲 + 出考题 + 评分。
下面是 4 周培训计划从设计到执行的全过程。
时间线:4 周培训,约 12 小时投入
| 周 | 培训内容 | 谁主导 | 通过率 |
|---|---|---|---|
| W1 | 基础 prompt:5 个偏方手记串讲 | 我 | 100%(无考核) |
| W2 | 实战 prompt:学员提交 1 个真实场景 prompt | AI 评分 + 我复议 | 70% |
| W3 | 优化 prompt:基于 token 账单做 prompt 优化 | AI 评分 + 我复议 | 55% |
| W4 | 完整任务:学员跑一个 5 步 agent 任务 | 我全程观察 | 80% |
净 12 小时:4 周 × 每周 3 小时(1 小时讲课 + 1 小时答疑 + 1 小时评分)。
决策点 1:培训内容怎么分层
第一版大纲我做错了——把 5 篇偏方手记全部串讲。结果 W1 讲完,学员反馈「信息量太大,消化不了」。
手动决定:分层。
第二版大纲:
# W1 基础 prompt(必学)
- 5 个偏方串讲(每篇 12 分钟)
- 课后作业:抄 1 个偏方到自己的场景
# W2 实战 prompt(进阶)
- 学员提交 1 个真实场景的 prompt
- AI 出 5 道题(针对该 prompt)
- 学员 60 分钟内答完
- AI 评分 + 我复议
# W3 优化 prompt(高级)
- 学员提交一个 agent 任务的完整 token 账单
- AI 出「优化挑战」:把这个账单砍 30%
- 学员给出优化后的 prompt
- AI 评分 + 我复议
# W4 完整任务(综合)
- 学员独立跑一个 5 步 agent 任务
- 我全程观察,不介入
- 通过 = 5 步全跑通 + token 账单 < W3 的 50%
关键洞察:W1 是「听」,W2-W4 是「做」。Trainer 模式如果只输出「听」的内容,就是 Commander 退化。
决策点 2:评估标准怎么定
第二版大纲做完,第二步是设计评估标准——这是 Trainer 模式最容易翻车的地方。
我第一版用的 prompt:
# 你的角色
Trainer。给学员的 prompt 打分。
# 评分维度
- 清晰度
- 完整性
- 实用性
结果 AI 给出了 30 个「清晰度不够」「完整性有缺」这种主观判断。学员不知道自己哪里错了,我也无法对质。
手动决定:改成可观测的硬指标。
第三版的评估 prompt(W2 用):
# 你的角色
Trainer。给学员的 prompt 打分。
# 4 项硬指标(每项 1 分)
1. 有明确的输入约束("翻译 /input 目录下所有英文 PDF")
2. 有明确的输出格式("输出到 /output 目录,文件名保持一致")
3. 有明确的验收标准("每翻译完 1 篇,在 log.txt 写一行 done:")
4. 没有反问或确认式语句("你觉得呢""可以先给我看看吗")
# 评分等级
- 4 分:通过
- 3 分:补 1 项
- 2 分:补 2 项
- 1 分:重做
# 输出格式
{
"score": 3,
"passed": false,
"missing": ["第 3 项:无验收标准"]
}
关键设计:4 项硬指标对应 A1-Commander 类型志里的 4 条核心要点。评估标准直接复用类型志——学完 W1,学员已经在脑子里有了这 4 项。
决策点 3:通过率太低怎么办
W2 第一次跑完,通过率 70%(10 个学员 7 个通过)。W3 第一次跑完,通过率 55%(10 个学员 5.5 个通过)。
5.5 个——一个学员卡在 3 分,我必须人工判断。
手动决定:3 分边界的人,复议 1 次。
具体做法:那个 3 分学员跟我 1-on-1 30 分钟,我让他解释他的 prompt 每一句的意思。他解释到第 4 句卡住——他自己发现少写了「验收标准」。他自己改完,得 4 分。
关键洞察:3 分边界的人不是「不够好」,是「不知道自己哪里不够好」。Trainer 模式的价值不在评分,在于逼学员自查。
token 账单(4 周培训累计)
| 阶段 | 输入 token | 输出 token | 费用 |
|---|---|---|---|
| 大纲设计(v1 → v3) | 18k | 8k | $0.34 |
| W2 考题设计(5 题 × 10 学员) | 25k | 12k | $0.48 |
| W2 评分(10 学员) | 8k | 3k | $0.14 |
| W3 优化挑战 + 评分 | 32k | 15k | $0.61 |
| W4 观察记录整理 | 6k | 2k | $0.10 |
| 合计 | 89k | 40k | $1.67 |
对比传统 PPT 分享:90 分钟 PPT + 准备 4 小时 = 5.5 小时。Trainer 帮我省了 8 小时 + 质量更好(通过率 70% vs PPT 后的 10% 转化)。
复购率验证(培训 3 个月后)
| 团队 | 培训前 | 培训后 | 涨幅 |
|---|---|---|---|
| 团队 A | 5% | 18% | +260% |
| 团队 B | 8% | 24% | +200% |
| 团队 C | 12% | 35% | +192% |
| 平均 | 8% | 24% | +200% |
注:复购率 = 学员在培训后 3 个月内回到怪招本站点 / 找 Mavis 做 prompt 优化的次数。
给也想用 Trainer 的朋友的 3 条建议
1. 培训内容必须分层:W1 听 / W2-W4 做。如果只输出「听」的内容,就是 Commander 退化——学员听完就忘。W2 的 5 道题 + 60 分钟答题比 90 分钟分享有效 5 倍。
2. 评估标准用硬指标,不要用「满意度」。第一版我用「清晰度 / 完整性 / 实用性」3 个主观维度,AI 给了 30 个模糊反馈。改用 4 项硬指标(输入约束 / 输出格式 / 验收标准 / 无反问语)后,学员知道自己哪里错——这才是教学。
3. 3 分边界的人,复议 1 次。4 分通过 / 1-2 分重做是容易判断的;3 分是最难的——学员「差一点但不知道差哪儿」。这种情况下不是评分问题,是自查问题。1-on-1 30 分钟让他解释自己的 prompt,自己发现哪里没写——学员自己改完的,比你替他改的有效 10 倍。
现场
对比传统 PPT 分享 vs Trainer 模式培训:
| 维度 | PPT 分享 | Trainer 模式 |
|---|---|---|
| 准备时间 | 4 小时 | 8 小时(含大纲迭代) |
| 现场时间 | 90 分钟 | 4 周 × 1 小时讲课 + 1 小时答疑 |
| 评分反馈 | 无 | AI 出题 + AI 评分 + 我复议 |
| 通过率 | 不量化 | 70% / 55% / 80%(每周量化) |
| 3 个月后复购率 | 8% | 24%(涨 3 倍) |
关键洞察:Trainer 模式的前期投入比 PPT 多 1 倍,但后期转化率高 3 倍。这跟 Commander 模式「brief 我写,决策我守」的逻辑不一样——Trainer 模式是「评估标准我定,复议我做,但中间的执行全甩给 AI」。
附:Trainer 模式的 prompt 模板(W2 用)
# 你的角色
Trainer。给学员的 prompt 打分。
# 4 项硬指标(每项 1 分)
1. 有明确的输入约束
2. 有明确的输出格式
3. 有明确的验收标准
4. 没有反问或确认式语句
# 评分等级
- 4 分:通过
- 3 分:补 1 项
- 2 分:补 2 项
- 1 分:重做
# 当前学员的 prompt
[粘贴 prompt]
# 输出格式
{
"score": 3,
"passed": false,
"missing": ["第 3 项:无验收标准"],
"feedback": "你定义了输入约束和输出格式,但缺验收标准。建议加一行:'每 X 完成 1 次,在 log.txt 写一行 done:'"
}
关键设计:
- 硬指标用列表不要用段落——AI 跑偏时我能在 5 秒内找到对应项
- feedback 字段必须给学员「怎么改」——只扣分不给建议,学员会重新交一模一样的 prompt
- 评分 JSON 不输出散文——我后续用脚本统计团队通过率
W1 沉淀周完结——5 个 type 各一篇实战。C6-C10 共 5 篇,约 1.1 万字。
下一阶段:W2 流量周——3 篇带真实数据的深度长文(T1 token 优化 / T2 prompt cache / T3 tool use 嵌套),按这个标准继续。
— 怪招本 #010 · 2026-06-28