我用 Commander 跑了 1 周批量改稿，客户第 8 天解约

一句话总结：Commander 只对「目标 + 验收 + 边界」三件事都清晰的活负责。如果其中任何一件是错的，它会把它做”漂亮”——而不会告诉你”前提错了”。

任务源头

2025 年 9 月，朋友介绍了一个 freelance 客户——一家做电商代运营的小公司，需要把 200 个商品描述从「口语化」改成「品牌调性」。

我的 brief 写得很漂亮：

5 段 brief：背景 / 目标 / 验收 / 边界 / 例外
验收标准：每篇 80-120 字、含 3 个核心卖点、避开 5 个禁用词
边界：不动标题、不改价格、不加新词
例外：3 个 SKU 单独处理

我自己读了一遍觉得没漏洞。 我把它甩给了 Claude。

时间线：8 天

Day 1-3：跑得飞起。

每天 Claude 跑 70-80 篇，我 review 5-10 篇看质量。前 30 篇里抽 10 篇 review，全部”达标”——长度、卖点、禁用词都过。

我心想：这单稳了。报价 4000 块，预计 5 天搞定，毛利 80%。

Day 4：第一个红旗。

客户拉了个微信群说：「改得挺好的，但调性不对，我们品牌更年轻一点」。

我回：「具体哪里不对？」

客户：「就是那种……年轻的、活泼的、调皮的。」

我 review 了我之前抽检的那 10 篇，发现确实——文字是「干净的」，但没有温度。我当初写的 brief 里只说”避免口语化”，没说”要有温度”。

这是第一个错：我把”避免口语化”等同于”做到品牌调性”。

我把 brief 改了，加了一条”加入年轻化表达”。Claude 当天重新跑了 50 篇。

Day 5-6：继续反馈。

客户：「这批改得还是太正式，要像小红书那种感觉」。

我 review 发现：Claude 给的”年轻化”是把所有句子加了「呀」「哦」「呢」——但不是小红书那种第一人称叙述 + 真实场景代入。

我把 brief 改成”小红书风格：第一人称、场景代入、口语”。Claude 重跑。

Day 7：客户开始怀疑。

客户：「你们 AI 写的吧？我找 AI 也能写出来。」

我愣住了。对啊，AI 写的。但我以为 AI 写的是”高质量 AI”，不是”一眼 AI”。

我把这个问题甩给 Claude 改，加了”避免 AI 痕迹”这一条。Claude 改了——但本质上是把短句改长、加比喻、加情绪词。读起来确实不像 AI 了，但读起来也不像人——像是一个特别用力的编辑改过的稿子。

Day 8：解约。

客户群里发了一段：「思来想去，我们决定这批描述我们自己重写。这次的尾款我们照付，但后面的合作就不继续了。」

我收到 3200 块（80% 尾款，因为客户没扣 20% 验收金——他说”也不容易”）。

决策点反推

我事后 review 整条时间线，发现我有 3 个认知错误：

错误 1：把 brief 写得好 = 任务定义清楚。

我的 brief 形式上完整（5 段、3 个禁用词、字数区间），但完全没写”目标用户是谁、他们在什么场景读这个描述、品牌的人设是谁”——这些是”调性”的前提。

形式完整 ≠ 内容正确。

错误 2：抽检 10 篇就觉得稳了。

Claude 是按 brief 跑的，brief 里没”温度”，Claude 不会主动加温度——它会按”避免口语化”严格执行，给出”干净”但”无感”的文字。

抽检只能验证”是不是按 brief 跑的”，不能验证”brief 本身是不是对的”。

错误 3：把客户的反馈当成”小修小补”。

Day 4 的反馈不是”调个温度”——客户其实在说”你根本不懂我”。Day 5 客户加了”小红书”，这是重新定义任务的信号，不是在原来的 brief 上加补丁。

我应该 Day 4 就停下来，回客户：“我们重新聊一下您品牌的调性”——而不是加一句”加入年轻化”继续跑。

token 账单

项目	数值
总轮次	47 轮
Claude 调用次数	312 次
Input tokens	1.8 M
Output tokens	280 K
总费用	$42.3
单篇平均成本	$0.21
我的时薪（如果算）	8 天 × 4 小时 × $25 = -$760（净亏）

$760 净亏。因为我前 3 天每天 1 小时 review 抽检（以为在”质量把关”），Day 4-7 每天 3 小时改 brief 重跑（以为在”满足客户”），Day 8 才知道——前面 3 天的 200 篇白跑了，全部要重写。

给也想用 Commander 的朋友的 3 条避坑

避坑 1：brief 里必须先写”为什么”，再写”做什么”。

如果你发现自己 brief 里写满了验收标准（字数、卖点、禁用词），但没有一段写”客户为什么要这个东西”——停下来，回去问客户。

Commander 会按 brief 跑得非常高效，但前提错了它不报警。

避坑 2：客户给的”反馈”如果是形容词（“年轻一点""活泼一点”），不是修补，是重定义。

你 brief 里原来没有这个维度。客户在告诉你——他心里的 brief 跟你手里的 brief 不是同一个。

处理方式：先把客户的话翻译成 3-5 个具体场景，让他确认；再改 brief 重跑。

避坑 3：抽检不能只看”达不达标”，要看”客户会不会买单”。

我的 10 篇抽检全部”达标”——字数对、卖点全、没禁用词。但客户看了 50 篇就解约了。

抽检维度应该是：你自己会不会买这个东西。如果不会，说明 brief 错了。

反思

我以前以为 Commander 的失败模式是”任务太复杂 agent 跑不动”。

实际上 Commander 的失败模式是”任务定义错了，agent 完美执行了错的任务”——而且它不会告诉你”你的 brief 错了”，只会交一份漂亮的、错的东西。

这次我学到的一件事：Commander 是一个放大器——放大你的 brief 写得好的部分，也放大你的 brief 写得差的部分。

不是 Commander 没用。是我应该在甩 brief 之前花 2 小时问客户”为什么”，而不是甩完 brief 之后花 8 天改 brief。

失败成本：$760 + 一个客户 + 8 天时间。真正贵的是「我以为 brief 写完了」这件事。