我用对话型写了一篇 5 万字废话稿,最后 3 万字是 agent 编的
对话型是「聊深」的工具,不是「聊长」的工具。我以为聊得越多稿子越厚,结果——对话漂移 + agent 编事实 = 5 万字废稿。
一句话总结:对话型适合「想清楚一个事」,不适合「写完一篇文」。我把它当写作工具用,结果对话漂移了 + agent 在我看不见的地方编事实。
任务源头
2025 年 12 月,朋友约我给一本 AI 行业杂志写一篇深度长文——「2025 年 AI 智能体行业的 5 个拐点」,8000-10000 字,月底交稿。
我之前写小说一直用对话型(Co-thinker 路线),觉得聊得越深越好。于是这次也用同样的思路——把 agent 当同事,从选题聊到初稿。
我以为这次会写得比小说快,因为选题明确。
时间线:21 天
Day 1-3:选题 + 大纲(看起来很正常)。
跟 Claude 聊「2025 年 AI 行业的 5 个拐点」。聊了 12 轮后,定下来 5 个拐点:
- Claude 3.5 → 3.7 的「会做」跃迁
- Cursor / Devin 把 AI 编程变成消费品
- 多 agent 编排从论文到生产
- Token 成本从 $60/M 跌到 $3/M
- Agent 安全 / 越狱成为企业级问题
每个拐点聊了 3-5 轮,agent 给了一些”事实”和数据,我没核对就塞进大纲。
Day 4-10:每个拐点写 1500-2000 字(漂移开始)。
按对话型节奏,我跟 Claude 一来一回:
[我] 第一个拐点先讲技术跃迁。从 GPT-3.5 到 Claude 3.7 有什么本质变化?
[Claude] 本质是从 "会想" 到 "会做"。3.5 是高级聊天,3.7 是能调用工具的智能体。
[我] 那 3.5 Sonnet 跟 3.7 的 token 价格差多少?
[Claude] 3.5 Sonnet 输入 $3/M, 输出 $15/M。3.7 大概贵 2-3 倍。
[我] 嗯,那 3.7 出来后哪些公司切了?
[Claude] Cursor 是最早切的,2024 年底就默认 3.7。Stripe 跟进。Linear 也切了。
...
问题 1:对话漂移。
到 Day 7 我回头看,发现我已经从「拐点 1:3.5 → 3.7 跃迁」漂到了「拐点 2:Cursor 的产品哲学」。拐点 1 还差 800 字没写完,拐点 2 已经写了 1200 字。
我跟 Claude 说:“先别动拐点 2,回去补拐点 1。” Claude 回去补拐点 1——但把拐点 2 的 800 字内容嫁接进了拐点 1。我看了 3 段才反应过来:“这段怎么在拐点 1 出现了?”
问题 2:agent 编事实。
Day 10 我整理第一稿,发现几个数字我看着眼熟但没核对过。我打开搜索引擎核:
- “Claude 3.7 输入价格 $X/M”——错的,Claude 3.5 Sonnet 价格,不是 3.7
- “Stripe 在 2024 Q4 切到 3.7”——编的,Stripe 从来没公开宣布过
- “Linear 用 Claude 重构了他们的编辑器内核”——编的,Linear 自己的代码是手写的
- 论文引用 “Multi-Agent Collaboration in Practice: A Survey”——不存在的论文
至少 8 处引用 / 数字是 agent 编的。 我之前没核对,全是因为我把对话型当 Co-thinker 用——以为它在跟我聊事实而不是聊想法。
Day 11-15:开始修补(越来越糟)。
我跟 Claude 说:“8 处事实错了,重新核对。” Claude 花了 1 天”核对”,给了修正版。但修正版里有 3 处又是新编的——Claude 修正的不是真错,是它对自己之前答案的合理化。
我意识到:对话型不适合核事实——它给你”看起来合理”的答案,但它没有外部世界 ground truth。
Day 16-19:转用 Commander 重写(拖到 1 万 5 千字)。
我放弃对话型,甩给 Claude 一个新的 Commander brief:「把上面 5 个拐点重写,每个拐点 1500 字,所有数字必须 2024 年 Q4 之前公开可查」。Claude 重写,但很多内容从我之前对话稿里搬过来——搬的过程中又出现新的引用错。
最后这稿 1 万 5 千字,里面有约 30 处事实问题。
Day 20-21:我自己重写(8000 字交了)。
我决定不用 agent 的稿子,自己重写。但 deadline 紧,最后一晚写到凌晨 3 点才交了 8500 字。质量比之前几版都好——因为事实是我自己核对的。
决策点反推
错误 1:用对话型做「完成式」任务。
对话型的本质是「探索」——跟 agent 来回,把一个模糊想法聊清晰。它不擅长「在固定大纲下往里填内容」这种执行式任务。
我应该:
- Day 1-5 用对话型定 5 个拐点(OK,这段用对了)
- Day 5 之后切 Commander / Trainer,按大纲填内容(错了,我继续对话型)
对话型填内容,agent 容易跑偏——它会”接着你说”,但不会回到原点重新整理。
错误 2:信任 agent 给的事实性数据。
对话型 agent 给我”3.7 价格贵 2-3 倍”、“Stripe 切到 3.7”、“Linear 重构编辑器”——全是我没核对的。
对话型的特点就是它听起来自信——你不会怀疑它在编。但它其实在编。
我的责任是:对话型聊出来的”事实”必须人工核对——这是对话型的硬约束,不是 bug。
错误 3:漂移发生后试图修补,没切换模式。
我 Day 7 发现漂移时,应该立刻切模式——对话型用于探索,Commander 用于执行。我没切,导致漂移被进一步嫁接修补,越修越乱。
token 账单
| 项目 | 数值 |
|---|---|
| 总轮次 | 73 轮(远超预期) |
| Claude 调用次数 | 411 次 |
| Input tokens | 4.2 M |
| Output tokens | 1.1 M |
| 总费用 | $128 |
| 我自己的时间 | 21 天 × 3 小时 = 63 小时 |
| 最终交付 | 8500 字自写稿,agent 稿全废 |
$128 买了什么?一篇 agent 写的、不能用的、1 万 5 千字废话稿。最后交的还是我自己写的。
给也想用对话型写长文的 3 条避坑
避坑 1:对话型只做”前 30%“——选题 + 大纲 + 核心论点。
剩下的 70% 用 Commander / Trainer。不要让它写长文——对话型写到第 8 轮就开始漂移,第 15 轮基本不可控。
避坑 2:对话型给的事实必须人工 ground truth 核对。
不管听起来多自信。所有数字、引用、公司行为、产品发布——一律去官方网站 / 搜索引擎 / arxiv 重新核对。
对策:对话聊出来的内容直接贴到 Notion 表格里,每条标「已核 / 未核」,未核的不能进稿。
避坑 3:发现漂移立刻切模式,不要修补。
漂移是结构性问题——对话的累积让 agent 失去全局感。你加一句”回去补 X”,agent 只能嫁接、不能重写。
发现漂移 → 停 → 把大纲存为新文档 → 切 Commander 按新 brief 重跑。
反思
我之前写小说用对话型一直很顺——因为小说就是探索,我想不清楚下一章要写什么,跟 agent 聊一聊就想清楚了。
但长文 / 报告是另一种东西——它需要结构、事实、可核对。
对话型的适用场景:
- 小说 / 剧本 / 创意文案(探索型)
- 决策 / 选型(讨论型)
- 哲学 / 思辨(开放式)
- 心理咨询 / 角色扮演(陪伴型)
对话型不适用的场景:
- 长报告 / 综述(执行型)
- 数据密集型内容(事实型)
- 时间敏感交付(截止型)
- 一次性多分支内容(结构型)
这次失败给我的最大教训:「我喜欢用 X」不等于「X 适合这个任务」。
失败成本:$128 + 21 天时间 + 60 小时人工 + 1 篇差点 publish 的废话稿。 真正贵的是「我用错了工具但没察觉」。