首页 类型 N° A5
驯化型 插画
A5 · Trainer

驯化型

调教 / 评估

把 agent 当半成品养。改 system prompt、加 few-shot、做 A/B、跑 benchmark。调好一次,复用一年。

性格画像

驯化型的人不直接用 agent,他们养 agent

他们的脑子里不是”我今天要做什么”,而是”我的 agent 今天能不能更好一点”。

他们的工作清单长这样:

  • “我那个翻译 agent 的中文 prompt 还能再压 200 token”
  • “新版的 few-shot 我加了一个反例,A/B 跑 50 次看看”
  • “把 4 个 prompt 模板合并成 1 个,用 XML 结构”
  • “今天的目标:把 system prompt 从 7K token 砍到 5K”

驯化型的工作是杠杆。他们花一周调好一个 agent,后面一年都受益。

跟 agent 怎么协作

典型工作流

  1. 收集失败 case(20-50 个)
  2. 分类:是哪类问题(指令不明确?格式不对?工具没用对?)
  3. 改 system prompt / 加 few-shot / 调参数
  4. 跑 A/B,对比新旧版本的指标
  5. 胜出版本部署;败出版本归档作为下次灵感的种子

沟通节奏

  • 不跟 agent 谈业务,把 agent 当实验对象
  • 每个 prompt 改 1 个变量,跑 50 次,看数据
  • 优化是迭代的不是跳跃的

适合的任务

  • 高频重复的 agent 任务
  • 多步、多工具的复杂流程
  • 成本敏感(API 账单高的场景)
  • 团队协作(多个 agent 之间要协调)

不适合的任务

  • 一次性任务(不值得花时间调)
  • 低频任务(没数据支撑 A/B)
  • 创意任务(agent 表现难量化)

风险

最大的风险是过度优化过早收敛

  • 过度优化:花 3 天把 prompt 砍 100 token,但每次任务只跑 5 次,省的钱还不够付你工资
  • 过早收敛:找到一个 80 分的版本就停了,没看到 95 分的可能性

对策

  • 设定优化 ROI 下限(每调一次至少省 5% 才算赢)
  • 每次优化记录 baseline + 改了什么 + 数据,否则回头不知道哪步有效

实战链接