Sonnet 4.5 vs 3.5 怎么算账：3 个真实场景对比

标价对比

Model	Input	Output	Cache write	Cache read
3.5 Sonnet	$3/M	$15/M	$3.75/M	$0.30/M
4.5 Sonnet	$5/M	$25/M	$6.25/M	$0.50/M

标价：4.5 input +67%，output +67%，cache 各项都 +67%。

但实际账单因场景而异。下面 3 个 case 我跑过的真实数据。

配置：system prompt 2K token，user msg 平均 200 token，output 平均 150 token。QPS 10。

Model	月 input token	月 output token	月账单
3.5	100M	15M	$300 + $225 = $525
4.5	100M	15M	$500 + $375 = $875

+67% 账单。4.5 在这种短 prompt 场景没有任何成本优势。

建议：客服 / 短文本 agent 继续用 3.5。

配置：system 8K，tools 2K，每次请求带 4 个 tool call，output 平均 1K（含 tool_call 结果）。

实测 4.5 在这个场景tool call 错误率比 3.5 低 40%。

Model	月 input	月 output	重试率	真实账单（含重试）
3.5	800M	80M	12%	$2400 + $1200 + 重试 $432 = $4032
4.5	720M（cache 命中 70%）	70M	7%	$3600 + $1750 + 重试 $280 = $5630

+40% 账单。但 4.5 的成功率高 → 业务上能多赚（少掉 5% 的失败率 = 多 5% 完成率）。

建议：高价值 agent 流程（业务核心）用 4.5。

配置：system 1K，user 平均 500，output 平均 3K。

Model	月 input	月 output	月账单
3.5	5M	30M	$15 + $450 = $465
4.5	5M	30M	$25 + $750 = $775

+67% 账单。4.5 的写作质量比 3.5 略好（更连贯、更有创意），但 ROI 不一定。

实测：《妖管局》第 47 章用 3.5 写的初稿 vs 4.5 写的初稿，我给读者盲评，4.5 只赢 8%。多付 67% 钱换 8% 质量提升，亏。

建议：写作 / 创意场景继续用 3.5。

实测发现的两个不显著但重要的优势：

如果你的场景是长 context + 多语言，4.5 是默认选择。

Model 选择不是”哪个更好”，是”哪个 ROI 更高”。

我自己的 agent 框架默认用 3.5，只在 3 个 case 用 4.5：

其它都 3.5。少付的钱累计起来比”质量提升”实际。

下一篇：6 个看不到的 token 黑洞。