CASE STUDIES · 10 个实战

5 个项目，
看 agent 真干活。

不是 PPT 案例，是 Mavis 跑生产任务的真实记录。每个有截图、有 token 账单、有踩坑、有可以抄的代码。

MOCHA MILE，一个咖啡城市的虚构杂志。我把任务丢给 Mavis，然后看着它把 6 张 AI 假店照换成 12 张真店照、跑 Playwright 验证、踩了 3 个网络层的坑。这是完整时间线。

怪招本的 5 篇偏方手记火了之后，团队让我做一次内部分享。我用 Trainer 模式（AI 设计大纲 + 出题 + 评分），把 90 分钟的分享变成了 4 周的培训计划。Trainer 模式的核心不是教学，是**评估标准的颗粒度**。

Mavis 跑长任务最大的坑是 session 中断：网络抖、用户离开、模型 rate limit。8 行 bash + 一个 cron entry 解决。

3 层 tool nesting 翻车率 28%。我把生产环境的 4 种典型 case 整理出来，每种配可复制的回滚代码。

为《妖管局》第 47 章的细纲。我跟 Mavis 走了 30 轮，最后的产物跟我最初的想法完全不一样。这是过程。

Mavis 替我管一个 1200 人 Discord 频道 30 天。结果：参与度 +18%，但 1 次严重翻车。完整数据 + 教训。

5 个 type、5 张 SVG、5 色 accent、26 页结构——一次改版。Commander 模式在内容工厂里怎么跑，怎么设验收，怎么留 audit，全在。

番茄投稿稿第一版 4200 字，反问 5 轮后剩 1280 字。这不是 AI 写的，是我写的——AI 只是反问。Conversationalist 模式的核心不是 prompt，是节奏。

怪招本 v3 改版时，让一个 reviewer agent 检查 25 篇文章骨架的一致性。第一版失败率 40%，调了 3 处 review 标准后砍到 8%。Supervisor 模式的核心不是 prompt，是 review 标准的颗粒度。

怪招本 v2 是 3 篇手记。v3 要不要扩成 26 页完整类型志？我自己定不下，用 Co-thinker 反问 5 轮——结果它把我的 4 个前提都推翻了，最后我做了相反的决定。Co-thinker 模式的核心不是 prompt，是接受反驳。

5 个项目，看 agent 真干活。