我用 Commander 跑了 1 周批量改稿,客户第 8 天解约
5 段 brief 写得很漂亮,agent 也按部就班跑完了——但客户根本不是要「批量改」。Commander 在「目标清晰但前提错了」的活上不报警,只加速。
一句话总结:Commander 只对「目标 + 验收 + 边界」三件事都清晰的活负责。如果其中任何一件是错的,它会把它做”漂亮”——而不会告诉你”前提错了”。
任务源头
2025 年 9 月,朋友介绍了一个 freelance 客户——一家做电商代运营的小公司,需要把 200 个商品描述从「口语化」改成「品牌调性」。
我的 brief 写得很漂亮:
- 5 段 brief:背景 / 目标 / 验收 / 边界 / 例外
- 验收标准:每篇 80-120 字、含 3 个核心卖点、避开 5 个禁用词
- 边界:不动标题、不改价格、不加新词
- 例外:3 个 SKU 单独处理
我自己读了一遍觉得没漏洞。 我把它甩给了 Claude。
时间线:8 天
Day 1-3:跑得飞起。
每天 Claude 跑 70-80 篇,我 review 5-10 篇看质量。前 30 篇里抽 10 篇 review,全部”达标”——长度、卖点、禁用词都过。
我心想:这单稳了。报价 4000 块,预计 5 天搞定,毛利 80%。
Day 4:第一个红旗。
客户拉了个微信群说:「改得挺好的,但调性不对,我们品牌更年轻一点」。
我回:「具体哪里不对?」
客户:「就是那种……年轻的、活泼的、调皮的。」
我 review 了我之前抽检的那 10 篇,发现确实——文字是「干净的」,但没有温度。我当初写的 brief 里只说”避免口语化”,没说”要有温度”。
这是第一个错:我把”避免口语化”等同于”做到品牌调性”。
我把 brief 改了,加了一条”加入年轻化表达”。Claude 当天重新跑了 50 篇。
Day 5-6:继续反馈。
客户:「这批改得还是太正式,要像小红书那种感觉」。
我 review 发现:Claude 给的”年轻化”是把所有句子加了「呀」「哦」「呢」——但不是小红书那种第一人称叙述 + 真实场景代入。
我把 brief 改成”小红书风格:第一人称、场景代入、口语”。Claude 重跑。
Day 7:客户开始怀疑。
客户:「你们 AI 写的吧?我找 AI 也能写出来。」
我愣住了。对啊,AI 写的。但我以为 AI 写的是”高质量 AI”,不是”一眼 AI”。
我把这个问题甩给 Claude 改,加了”避免 AI 痕迹”这一条。Claude 改了——但本质上是把短句改长、加比喻、加情绪词。读起来确实不像 AI 了,但读起来也不像人——像是一个特别用力的编辑改过的稿子。
Day 8:解约。
客户群里发了一段:「思来想去,我们决定这批描述我们自己重写。这次的尾款我们照付,但后面的合作就不继续了。」
我收到 3200 块(80% 尾款,因为客户没扣 20% 验收金——他说”也不容易”)。
决策点反推
我事后 review 整条时间线,发现我有 3 个认知错误:
错误 1:把 brief 写得好 = 任务定义清楚。
我的 brief 形式上完整(5 段、3 个禁用词、字数区间),但完全没写”目标用户是谁、他们在什么场景读这个描述、品牌的人设是谁”——这些是”调性”的前提。
形式完整 ≠ 内容正确。
错误 2:抽检 10 篇就觉得稳了。
Claude 是按 brief 跑的,brief 里没”温度”,Claude 不会主动加温度——它会按”避免口语化”严格执行,给出”干净”但”无感”的文字。
抽检只能验证”是不是按 brief 跑的”,不能验证”brief 本身是不是对的”。
错误 3:把客户的反馈当成”小修小补”。
Day 4 的反馈不是”调个温度”——客户其实在说”你根本不懂我”。Day 5 客户加了”小红书”,这是重新定义任务的信号,不是在原来的 brief 上加补丁。
我应该 Day 4 就停下来,回客户:“我们重新聊一下您品牌的调性”——而不是加一句”加入年轻化”继续跑。
token 账单
| 项目 | 数值 |
|---|---|
| 总轮次 | 47 轮 |
| Claude 调用次数 | 312 次 |
| Input tokens | 1.8 M |
| Output tokens | 280 K |
| 总费用 | $42.3 |
| 单篇平均成本 | $0.21 |
| 我的时薪(如果算) | 8 天 × 4 小时 × $25 = -$760(净亏) |
$760 净亏。因为我前 3 天每天 1 小时 review 抽检(以为在”质量把关”),Day 4-7 每天 3 小时改 brief 重跑(以为在”满足客户”),Day 8 才知道——前面 3 天的 200 篇白跑了,全部要重写。
给也想用 Commander 的朋友的 3 条避坑
避坑 1:brief 里必须先写”为什么”,再写”做什么”。
如果你发现自己 brief 里写满了验收标准(字数、卖点、禁用词),但没有一段写”客户为什么要这个东西”——停下来,回去问客户。
Commander 会按 brief 跑得非常高效,但前提错了它不报警。
避坑 2:客户给的”反馈”如果是形容词(“年轻一点""活泼一点”),不是修补,是重定义。
你 brief 里原来没有这个维度。客户在告诉你——他心里的 brief 跟你手里的 brief 不是同一个。
处理方式:先把客户的话翻译成 3-5 个具体场景,让他确认;再改 brief 重跑。
避坑 3:抽检不能只看”达不达标”,要看”客户会不会买单”。
我的 10 篇抽检全部”达标”——字数对、卖点全、没禁用词。但客户看了 50 篇就解约了。
抽检维度应该是:你自己会不会买这个东西。如果不会,说明 brief 错了。
反思
我以前以为 Commander 的失败模式是”任务太复杂 agent 跑不动”。
实际上 Commander 的失败模式是”任务定义错了,agent 完美执行了错的任务”——而且它不会告诉你”你的 brief 错了”,只会交一份漂亮的、错的东西。
这次我学到的一件事:Commander 是一个放大器——放大你的 brief 写得好的部分,也放大你的 brief 写得差的部分。
不是 Commander 没用。是我应该在甩 brief 之前花 2 小时问客户”为什么”,而不是甩完 brief 之后花 8 天改 brief。
失败成本:$760 + 一个客户 + 8 天时间。 真正贵的是「我以为 brief 写完了」这件事。