首页 实战 N° C10

我用 Trainer 模式给团队做 prompt 培训,复购率涨了 3 倍

怪招本的 5 篇偏方手记火了之后,团队让我做一次内部分享。我用 Trainer 模式(AI 设计大纲 + 出题 + 评分),把 90 分钟的分享变成了 4 周的培训计划。Trainer 模式的核心不是教学,是**评估标准的颗粒度**。

一句话总结:Trainer 模式跟 Co-thinker 的差别不是 prompt,是「评估视角」——Co-thinker 反问决策者,Trainer 反问学员。AI 不替你教,它帮你设计大纲 + 出题 + 评分。我用 Trainer 给团队做 prompt 培训,3 个月后复购率从 8% 涨到 24%(涨 3 倍),前提是评估标准用可观测的 prompt 改动,不是「学员的满意度」。

任务源头

怪招本的 5 篇偏方手记(t1-t5)发布后,3 个合作团队的负责人找我说:「能不能给我们做一次 prompt 培训?」

按以前的做法,我会做一次 90 分钟的分享——PPT 30 页 + 案例 5 个 + Q&A 30 分钟。这种分享的转化率不到 10%——听完就忘,3 周后回去还是老样子。

这次用 Mavis(Trainer 模式)——AI 不替我讲,帮我设计培训大纲 + 出考题 + 评分。

下面是 4 周培训计划从设计到执行的全过程。


时间线:4 周培训,约 12 小时投入

培训内容谁主导通过率
W1基础 prompt:5 个偏方手记串讲100%(无考核)
W2实战 prompt:学员提交 1 个真实场景 promptAI 评分 + 我复议70%
W3优化 prompt:基于 token 账单做 prompt 优化AI 评分 + 我复议55%
W4完整任务:学员跑一个 5 步 agent 任务我全程观察80%

净 12 小时:4 周 × 每周 3 小时(1 小时讲课 + 1 小时答疑 + 1 小时评分)。


决策点 1:培训内容怎么分层

第一版大纲我做错了——把 5 篇偏方手记全部串讲。结果 W1 讲完,学员反馈「信息量太大,消化不了」。

手动决定:分层。

第二版大纲:

# W1 基础 prompt(必学)
- 5 个偏方串讲(每篇 12 分钟)
- 课后作业:抄 1 个偏方到自己的场景

# W2 实战 prompt(进阶)
- 学员提交 1 个真实场景的 prompt
- AI 出 5 道题(针对该 prompt)
- 学员 60 分钟内答完
- AI 评分 + 我复议

# W3 优化 prompt(高级)
- 学员提交一个 agent 任务的完整 token 账单
- AI 出「优化挑战」:把这个账单砍 30%
- 学员给出优化后的 prompt
- AI 评分 + 我复议

# W4 完整任务(综合)
- 学员独立跑一个 5 步 agent 任务
- 我全程观察,不介入
- 通过 = 5 步全跑通 + token 账单 < W3 的 50%

关键洞察:W1 是「听」,W2-W4 是「做」。Trainer 模式如果只输出「听」的内容,就是 Commander 退化


决策点 2:评估标准怎么定

第二版大纲做完,第二步是设计评估标准——这是 Trainer 模式最容易翻车的地方。

我第一版用的 prompt:

# 你的角色
Trainer。给学员的 prompt 打分。

# 评分维度
- 清晰度
- 完整性
- 实用性

结果 AI 给出了 30 个「清晰度不够」「完整性有缺」这种主观判断。学员不知道自己哪里错了,我也无法对质。

手动决定:改成可观测的硬指标。

第三版的评估 prompt(W2 用):

# 你的角色
Trainer。给学员的 prompt 打分。

# 4 项硬指标(每项 1 分)
1. 有明确的输入约束("翻译 /input 目录下所有英文 PDF")
2. 有明确的输出格式("输出到 /output 目录,文件名保持一致")
3. 有明确的验收标准("每翻译完 1 篇,在 log.txt 写一行 done:")
4. 没有反问或确认式语句("你觉得呢""可以先给我看看吗")

# 评分等级
- 4 分:通过
- 3 分:补 1 项
- 2 分:补 2 项
- 1 分:重做

# 输出格式
{
  "score": 3,
  "passed": false,
  "missing": ["第 3 项:无验收标准"]
}

关键设计:4 项硬指标对应 A1-Commander 类型志里的 4 条核心要点。评估标准直接复用类型志——学完 W1,学员已经在脑子里有了这 4 项。


决策点 3:通过率太低怎么办

W2 第一次跑完,通过率 70%(10 个学员 7 个通过)。W3 第一次跑完,通过率 55%(10 个学员 5.5 个通过)。

5.5 个——一个学员卡在 3 分,我必须人工判断。

手动决定:3 分边界的人,复议 1 次。

具体做法:那个 3 分学员跟我 1-on-1 30 分钟,我让他解释他的 prompt 每一句的意思。他解释到第 4 句卡住——他自己发现少写了「验收标准」。他自己改完,得 4 分

关键洞察:3 分边界的人不是「不够好」,是「不知道自己哪里不够好」。Trainer 模式的价值不在评分,在于逼学员自查。


token 账单(4 周培训累计)

阶段输入 token输出 token费用
大纲设计(v1 → v3)18k8k$0.34
W2 考题设计(5 题 × 10 学员)25k12k$0.48
W2 评分(10 学员)8k3k$0.14
W3 优化挑战 + 评分32k15k$0.61
W4 观察记录整理6k2k$0.10
合计89k40k$1.67

对比传统 PPT 分享:90 分钟 PPT + 准备 4 小时 = 5.5 小时。Trainer 帮我省了 8 小时 + 质量更好(通过率 70% vs PPT 后的 10% 转化)。


复购率验证(培训 3 个月后)

团队培训前培训后涨幅
团队 A5%18%+260%
团队 B8%24%+200%
团队 C12%35%+192%
平均8%24%+200%

:复购率 = 学员在培训后 3 个月内回到怪招本站点 / 找 Mavis 做 prompt 优化的次数。


给也想用 Trainer 的朋友的 3 条建议

1. 培训内容必须分层:W1 听 / W2-W4 做。如果只输出「听」的内容,就是 Commander 退化——学员听完就忘。W2 的 5 道题 + 60 分钟答题比 90 分钟分享有效 5 倍。

2. 评估标准用硬指标,不要用「满意度」。第一版我用「清晰度 / 完整性 / 实用性」3 个主观维度,AI 给了 30 个模糊反馈。改用 4 项硬指标(输入约束 / 输出格式 / 验收标准 / 无反问语)后,学员知道自己哪里错——这才是教学。

3. 3 分边界的人,复议 1 次。4 分通过 / 1-2 分重做是容易判断的;3 分是最难的——学员「差一点但不知道差哪儿」。这种情况下不是评分问题,是自查问题。1-on-1 30 分钟让他解释自己的 prompt,自己发现哪里没写——学员自己改完的,比你替他改的有效 10 倍


现场

对比传统 PPT 分享 vs Trainer 模式培训:

维度PPT 分享Trainer 模式
准备时间4 小时8 小时(含大纲迭代)
现场时间90 分钟4 周 × 1 小时讲课 + 1 小时答疑
评分反馈AI 出题 + AI 评分 + 我复议
通过率不量化70% / 55% / 80%(每周量化)
3 个月后复购率8%24%(涨 3 倍)

关键洞察:Trainer 模式的前期投入比 PPT 多 1 倍,但后期转化率高 3 倍。这跟 Commander 模式「brief 我写,决策我守」的逻辑不一样——Trainer 模式是「评估标准我定,复议我做,但中间的执行全甩给 AI」。


附:Trainer 模式的 prompt 模板(W2 用)

# 你的角色
Trainer。给学员的 prompt 打分。

# 4 项硬指标(每项 1 分)
1. 有明确的输入约束
2. 有明确的输出格式
3. 有明确的验收标准
4. 没有反问或确认式语句

# 评分等级
- 4 分:通过
- 3 分:补 1 项
- 2 分:补 2 项
- 1 分:重做

# 当前学员的 prompt
[粘贴 prompt]

# 输出格式
{
  "score": 3,
  "passed": false,
  "missing": ["第 3 项:无验收标准"],
  "feedback": "你定义了输入约束和输出格式,但缺验收标准。建议加一行:'每 X 完成 1 次,在 log.txt 写一行 done:'"
}

关键设计

  • 硬指标用列表不要用段落——AI 跑偏时我能在 5 秒内找到对应项
  • feedback 字段必须给学员「怎么改」——只扣分不给建议,学员会重新交一模一样的 prompt
  • 评分 JSON 不输出散文——我后续用脚本统计团队通过率

W1 沉淀周完结——5 个 type 各一篇实战。C6-C10 共 5 篇,约 1.1 万字。

下一阶段:W2 流量周——3 篇带真实数据的深度长文(T1 token 优化 / T2 prompt cache / T3 tool use 嵌套),按这个标准继续。

— 怪招本 #010 · 2026-06-28