5 个项目,
看 agent 真干活。
不是 PPT 案例,是 Mavis 跑生产任务的真实记录。每个有截图、有 token 账单、有踩坑、有可以抄的代码。
我用 Mavis 4 小时搭完一个咖啡博客站,过程全在
MOCHA MILE,一个咖啡城市的虚构杂志。我把任务丢给 Mavis,然后看着它把 6 张 AI 假店照换成 12 张真店照、跑 Playwright 验证、踩了 3 个网络层的坑。这是完整时间线。
我用 Trainer 模式给团队做 prompt 培训,复购率涨了 3 倍
怪招本的 5 篇偏方手记火了之后,团队让我做一次内部分享。我用 Trainer 模式(AI 设计大纲 + 出题 + 评分),把 90 分钟的分享变成了 4 周的培训计划。Trainer 模式的核心不是教学,是**评估标准的颗粒度**。
Cron 自我提醒:让 Mavis 跑 4 小时不散
Mavis 跑长任务最大的坑是 session 中断:网络抖、用户离开、模型 rate limit。8 行 bash + 一个 cron entry 解决。
Tool use 嵌套失败的 4 种回滚模式
3 层 tool nesting 翻车率 28%。我把生产环境的 4 种典型 case 整理出来,每种配可复制的回滚代码。
跟 agent 一起写小说细纲:30 轮对话实录
为《妖管局》第 47 章的细纲。我跟 Mavis 走了 30 轮,最后的产物跟我最初的想法完全不一样。这是过程。
用 agent 接管 Discord 频道 30 天:一份诚实的复盘
Mavis 替我管一个 1200 人 Discord 频道 30 天。结果:参与度 +18%,但 1 次严重翻车。完整数据 + 教训。
我把怪招本 v3 改版拆成 26 段 brief,让 Commander 跑了 4 小时
5 个 type、5 张 SVG、5 色 accent、26 页结构——一次改版。Commander 模式在内容工厂里怎么跑,怎么设验收,怎么留 audit,全在。
让 Conversationalist 当 30 天私人编辑器,我删了 70% 的开头
番茄投稿稿第一版 4200 字,反问 5 轮后剩 1280 字。这不是 AI 写的,是我写的——AI 只是反问。Conversationalist 模式的核心不是 prompt,是节奏。
我用 Supervisor 把多 agent 编排失败率从 40% 砍到 8%
怪招本 v3 改版时,让一个 reviewer agent 检查 25 篇文章骨架的一致性。第一版失败率 40%,调了 3 处 review 标准后砍到 8%。Supervisor 模式的核心不是 prompt,是 review 标准的颗粒度。
Co-thinker 不是写作助手,是我想清商业模式的陪练
怪招本 v2 是 3 篇手记。v3 要不要扩成 26 页完整类型志?我自己定不下,用 Co-thinker 反问 5 轮——结果它把我的 4 个前提都推翻了,最后我做了相反的决定。Co-thinker 模式的核心不是 prompt,是接受反驳。