首页 实战 N° F1

我用 Commander 跑了 1 周批量改稿,客户第 8 天解约

5 段 brief 写得很漂亮,agent 也按部就班跑完了——但客户根本不是要「批量改」。Commander 在「目标清晰但前提错了」的活上不报警,只加速。

一句话总结:Commander 只对「目标 + 验收 + 边界」三件事都清晰的活负责。如果其中任何一件是错的,它会把它做”漂亮”——而不会告诉你”前提错了”。

任务源头

2025 年 9 月,朋友介绍了一个 freelance 客户——一家做电商代运营的小公司,需要把 200 个商品描述从「口语化」改成「品牌调性」。

我的 brief 写得很漂亮

  • 5 段 brief:背景 / 目标 / 验收 / 边界 / 例外
  • 验收标准:每篇 80-120 字、含 3 个核心卖点、避开 5 个禁用词
  • 边界:不动标题、不改价格、不加新词
  • 例外:3 个 SKU 单独处理

我自己读了一遍觉得没漏洞。 我把它甩给了 Claude。

时间线:8 天

Day 1-3:跑得飞起。

每天 Claude 跑 70-80 篇,我 review 5-10 篇看质量。前 30 篇里抽 10 篇 review,全部”达标”——长度、卖点、禁用词都过。

我心想:这单稳了。报价 4000 块,预计 5 天搞定,毛利 80%。

Day 4:第一个红旗。

客户拉了个微信群说:「改得挺好的,但调性不对,我们品牌更年轻一点」。

我回:「具体哪里不对?」

客户:「就是那种……年轻的、活泼的、调皮的。」

我 review 了我之前抽检的那 10 篇,发现确实——文字是「干净的」,但没有温度。我当初写的 brief 里只说”避免口语化”,没说”要有温度”。

这是第一个错:我把”避免口语化”等同于”做到品牌调性”。

我把 brief 改了,加了一条”加入年轻化表达”。Claude 当天重新跑了 50 篇。

Day 5-6:继续反馈。

客户:「这批改得还是太正式,要像小红书那种感觉」。

我 review 发现:Claude 给的”年轻化”是把所有句子加了「呀」「哦」「呢」——但不是小红书那种第一人称叙述 + 真实场景代入

我把 brief 改成”小红书风格:第一人称、场景代入、口语”。Claude 重跑。

Day 7:客户开始怀疑。

客户:「你们 AI 写的吧?我找 AI 也能写出来。」

我愣住了。对啊,AI 写的。但我以为 AI 写的是”高质量 AI”,不是”一眼 AI”。

我把这个问题甩给 Claude 改,加了”避免 AI 痕迹”这一条。Claude 改了——但本质上是把短句改长、加比喻、加情绪词。读起来确实不像 AI 了,但读起来也不像人——像是一个特别用力的编辑改过的稿子。

Day 8:解约。

客户群里发了一段:「思来想去,我们决定这批描述我们自己重写。这次的尾款我们照付,但后面的合作就不继续了。」

我收到 3200 块(80% 尾款,因为客户没扣 20% 验收金——他说”也不容易”)。

决策点反推

我事后 review 整条时间线,发现我有 3 个认知错误

错误 1:把 brief 写得好 = 任务定义清楚。

我的 brief 形式上完整(5 段、3 个禁用词、字数区间),但完全没写”目标用户是谁、他们在什么场景读这个描述、品牌的人设是谁”——这些是”调性”的前提。

形式完整 ≠ 内容正确。

错误 2:抽检 10 篇就觉得稳了。

Claude 是按 brief 跑的,brief 里没”温度”,Claude 不会主动加温度——它会按”避免口语化”严格执行,给出”干净”但”无感”的文字。

抽检只能验证”是不是按 brief 跑的”,不能验证”brief 本身是不是对的”。

错误 3:把客户的反馈当成”小修小补”。

Day 4 的反馈不是”调个温度”——客户其实在说”你根本不懂我”。Day 5 客户加了”小红书”,这是重新定义任务的信号,不是在原来的 brief 上加补丁。

我应该 Day 4 就停下来,回客户:“我们重新聊一下您品牌的调性”——而不是加一句”加入年轻化”继续跑。

token 账单

项目数值
总轮次47 轮
Claude 调用次数312 次
Input tokens1.8 M
Output tokens280 K
总费用$42.3
单篇平均成本$0.21
我的时薪(如果算)8 天 × 4 小时 × $25 = -$760(净亏)

$760 净亏。因为我前 3 天每天 1 小时 review 抽检(以为在”质量把关”),Day 4-7 每天 3 小时改 brief 重跑(以为在”满足客户”),Day 8 才知道——前面 3 天的 200 篇白跑了,全部要重写。

给也想用 Commander 的朋友的 3 条避坑

避坑 1:brief 里必须先写”为什么”,再写”做什么”。

如果你发现自己 brief 里写满了验收标准(字数、卖点、禁用词),但没有一段写”客户为什么要这个东西”——停下来,回去问客户。

Commander 会按 brief 跑得非常高效,但前提错了它不报警

避坑 2:客户给的”反馈”如果是形容词(“年轻一点""活泼一点”),不是修补,是重定义。

你 brief 里原来没有这个维度。客户在告诉你——他心里的 brief 跟你手里的 brief 不是同一个

处理方式:先把客户的话翻译成 3-5 个具体场景,让他确认;再改 brief 重跑。

避坑 3:抽检不能只看”达不达标”,要看”客户会不会买单”。

我的 10 篇抽检全部”达标”——字数对、卖点全、没禁用词。但客户看了 50 篇就解约了。

抽检维度应该是:你自己会不会买这个东西。如果不会,说明 brief 错了。

反思

我以前以为 Commander 的失败模式是”任务太复杂 agent 跑不动”。

实际上 Commander 的失败模式是”任务定义错了,agent 完美执行了错的任务”——而且它不会告诉你”你的 brief 错了”,只会交一份漂亮的、错的东西。

这次我学到的一件事:Commander 是一个放大器——放大你的 brief 写得好的部分,也放大你的 brief 写得差的部分。

不是 Commander 没用。是我应该在甩 brief 之前花 2 小时问客户”为什么”,而不是甩完 brief 之后花 8 天改 brief

失败成本:$760 + 一个客户 + 8 天时间。 真正贵的是「我以为 brief 写完了」这件事。