把 agent 当半成品养。改 system prompt、加 few-shot、做 A/B、跑 benchmark。调好一次,复用一年。
性格画像
驯化型的人不直接用 agent,他们养 agent。
他们的脑子里不是”我今天要做什么”,而是”我的 agent 今天能不能更好一点”。
他们的工作清单长这样:
- “我那个翻译 agent 的中文 prompt 还能再压 200 token”
- “新版的 few-shot 我加了一个反例,A/B 跑 50 次看看”
- “把 4 个 prompt 模板合并成 1 个,用 XML 结构”
- “今天的目标:把 system prompt 从 7K token 砍到 5K”
驯化型的工作是杠杆。他们花一周调好一个 agent,后面一年都受益。
跟 agent 怎么协作
典型工作流:
- 收集失败 case(20-50 个)
- 分类:是哪类问题(指令不明确?格式不对?工具没用对?)
- 改 system prompt / 加 few-shot / 调参数
- 跑 A/B,对比新旧版本的指标
- 胜出版本部署;败出版本归档作为下次灵感的种子
沟通节奏:
- 不跟 agent 谈业务,把 agent 当实验对象
- 每个 prompt 改 1 个变量,跑 50 次,看数据
- 优化是迭代的不是跳跃的
适合的任务
- 高频重复的 agent 任务
- 多步、多工具的复杂流程
- 成本敏感(API 账单高的场景)
- 团队协作(多个 agent 之间要协调)
不适合的任务
- 一次性任务(不值得花时间调)
- 低频任务(没数据支撑 A/B)
- 创意任务(agent 表现难量化)
风险
最大的风险是过度优化和过早收敛。
- 过度优化:花 3 天把 prompt 砍 100 token,但每次任务只跑 5 次,省的钱还不够付你工资
- 过早收敛:找到一个 80 分的版本就停了,没看到 95 分的可能性
对策:
- 设定优化 ROI 下限(每调一次至少省 5% 才算赢)
- 每次优化记录 baseline + 改了什么 + 数据,否则回头不知道哪步有效