我用对话型写了一篇 5 万字废话稿，最后 3 万字是 agent 编的

一句话总结：对话型适合「想清楚一个事」，不适合「写完一篇文」。我把它当写作工具用，结果对话漂移了 + agent 在我看不见的地方编事实。

任务源头

2025 年 12 月，朋友约我给一本 AI 行业杂志写一篇深度长文——「2025 年 AI 智能体行业的 5 个拐点」，8000-10000 字，月底交稿。

我之前写小说一直用对话型（Co-thinker 路线），觉得聊得越深越好。于是这次也用同样的思路——把 agent 当同事，从选题聊到初稿。

我以为这次会写得比小说快，因为选题明确。

时间线：21 天

Day 1-3：选题 + 大纲（看起来很正常）。

跟 Claude 聊「2025 年 AI 行业的 5 个拐点」。聊了 12 轮后，定下来 5 个拐点：

Claude 3.5 → 3.7 的「会做」跃迁
Cursor / Devin 把 AI 编程变成消费品
多 agent 编排从论文到生产
Token 成本从 $60/M 跌到 $3/M
Agent 安全 / 越狱成为企业级问题

每个拐点聊了 3-5 轮，agent 给了一些”事实”和数据，我没核对就塞进大纲。

Day 4-10：每个拐点写 1500-2000 字（漂移开始）。

按对话型节奏，我跟 Claude 一来一回：

[我] 第一个拐点先讲技术跃迁。从 GPT-3.5 到 Claude 3.7 有什么本质变化？
[Claude] 本质是从 "会想" 到 "会做"。3.5 是高级聊天，3.7 是能调用工具的智能体。
[我] 那 3.5 Sonnet 跟 3.7 的 token 价格差多少？
[Claude] 3.5 Sonnet 输入 $3/M, 输出 $15/M。3.7 大概贵 2-3 倍。
[我] 嗯，那 3.7 出来后哪些公司切了？
[Claude] Cursor 是最早切的，2024 年底就默认 3.7。Stripe 跟进。Linear 也切了。
...

问题 1：对话漂移。

到 Day 7 我回头看，发现我已经从「拐点 1：3.5 → 3.7 跃迁」漂到了「拐点 2：Cursor 的产品哲学」。拐点 1 还差 800 字没写完，拐点 2 已经写了 1200 字。

我跟 Claude 说：“先别动拐点 2，回去补拐点 1。” Claude 回去补拐点 1——但把拐点 2 的 800 字内容嫁接进了拐点 1。我看了 3 段才反应过来：“这段怎么在拐点 1 出现了？”

问题 2：agent 编事实。

Day 10 我整理第一稿，发现几个数字我看着眼熟但没核对过。我打开搜索引擎核：

“Claude 3.7 输入价格 $X/M”——错的，Claude 3.5 Sonnet 价格，不是 3.7
“Stripe 在 2024 Q4 切到 3.7”——编的，Stripe 从来没公开宣布过
“Linear 用 Claude 重构了他们的编辑器内核”——编的，Linear 自己的代码是手写的
论文引用 “Multi-Agent Collaboration in Practice: A Survey”——不存在的论文

至少 8 处引用 / 数字是 agent 编的。 我之前没核对，全是因为我把对话型当 Co-thinker 用——以为它在跟我聊事实而不是聊想法。

Day 11-15：开始修补（越来越糟）。

我跟 Claude 说：“8 处事实错了，重新核对。” Claude 花了 1 天”核对”，给了修正版。但修正版里有 3 处又是新编的——Claude 修正的不是真错，是它对自己之前答案的合理化。

我意识到：对话型不适合核事实——它给你”看起来合理”的答案，但它没有外部世界 ground truth。

Day 16-19：转用 Commander 重写（拖到 1 万 5 千字）。

我放弃对话型，甩给 Claude 一个新的 Commander brief：「把上面 5 个拐点重写，每个拐点 1500 字，所有数字必须 2024 年 Q4 之前公开可查」。Claude 重写，但很多内容从我之前对话稿里搬过来——搬的过程中又出现新的引用错。

最后这稿 1 万 5 千字，里面有约 30 处事实问题。

Day 20-21：我自己重写（8000 字交了）。

我决定不用 agent 的稿子，自己重写。但 deadline 紧，最后一晚写到凌晨 3 点才交了 8500 字。质量比之前几版都好——因为事实是我自己核对的。

决策点反推

错误 1：用对话型做「完成式」任务。

对话型的本质是「探索」——跟 agent 来回，把一个模糊想法聊清晰。它不擅长「在固定大纲下往里填内容」这种执行式任务。

我应该：

Day 1-5 用对话型定 5 个拐点（OK，这段用对了）
Day 5 之后切 Commander / Trainer，按大纲填内容（错了，我继续对话型）

对话型填内容，agent 容易跑偏——它会”接着你说”，但不会回到原点重新整理。

错误 2：信任 agent 给的事实性数据。

对话型 agent 给我”3.7 价格贵 2-3 倍”、“Stripe 切到 3.7”、“Linear 重构编辑器”——全是我没核对的。

对话型的特点就是它听起来自信——你不会怀疑它在编。但它其实在编。

我的责任是：对话型聊出来的”事实”必须人工核对——这是对话型的硬约束，不是 bug。

错误 3：漂移发生后试图修补，没切换模式。

我 Day 7 发现漂移时，应该立刻切模式——对话型用于探索，Commander 用于执行。我没切，导致漂移被进一步嫁接修补，越修越乱。

token 账单

项目	数值
总轮次	73 轮（远超预期）
Claude 调用次数	411 次
Input tokens	4.2 M
Output tokens	1.1 M
总费用	$128
我自己的时间	21 天 × 3 小时 = 63 小时
最终交付	8500 字自写稿，agent 稿全废

$128 买了什么？一篇 agent 写的、不能用的、1 万 5 千字废话稿。最后交的还是我自己写的。

给也想用对话型写长文的 3 条避坑

避坑 1：对话型只做”前 30%“——选题 + 大纲 + 核心论点。

剩下的 70% 用 Commander / Trainer。不要让它写长文——对话型写到第 8 轮就开始漂移，第 15 轮基本不可控。

避坑 2：对话型给的事实必须人工 ground truth 核对。

不管听起来多自信。所有数字、引用、公司行为、产品发布——一律去官方网站 / 搜索引擎 / arxiv 重新核对。

对策：对话聊出来的内容直接贴到 Notion 表格里，每条标「已核 / 未核」，未核的不能进稿。

避坑 3：发现漂移立刻切模式，不要修补。

漂移是结构性问题——对话的累积让 agent 失去全局感。你加一句”回去补 X”，agent 只能嫁接、不能重写。

发现漂移 → 停 → 把大纲存为新文档 → 切 Commander 按新 brief 重跑。

反思

我之前写小说用对话型一直很顺——因为小说就是探索，我想不清楚下一章要写什么，跟 agent 聊一聊就想清楚了。

但长文 / 报告是另一种东西——它需要结构、事实、可核对。

对话型的适用场景：

小说 / 剧本 / 创意文案（探索型）
决策 / 选型（讨论型）
哲学 / 思辨（开放式）
心理咨询 / 角色扮演（陪伴型）

对话型不适用的场景：

长报告 / 综述（执行型）
数据密集型内容（事实型）
时间敏感交付（截止型）
一次性多分支内容（结构型）

这次失败给我的最大教训：「我喜欢用 X」不等于「X 适合这个任务」。

失败成本：$128 + 21 天时间 + 60 小时人工 + 1 篇差点 publish 的废话稿。真正贵的是「我用错了工具但没察觉」。