一个 AI 研究员用 agent 读 paper 的方法
李明(化名),上海 AI lab 博士在读。他用 Claude 帮他从 200 篇 arxiv 论文里提取方法 + 跑实验对比。这是工作流。
主体
李明(化名),上海某 AI lab 博士在读,研究方向:multi-agent 协作。他每周要读 20-30 篇 arxiv 论文。
2025 年初开始用 Claude 帮他做 literature review。10 个月下来,工具链换了 4 次,目前这版最稳。
工作流
每日 30 分钟 · arxiv 扫读(指挥型)
# arxiv_scraper.py
def daily_scan(category: str, max_n: int = 30):
"""抓取今天 arxiv-{category} 的所有新论文,过滤掉不相关的"""
papers = arxiv_api.query(category=category, max_results=max_n)
for p in papers:
if claude_relevance_check(p.abstract) > 0.7:
send_to_notion(p)
claude_relevance_check 是他调过的 prompt(驯化型):
你是 multi-agent 协作方向的资深研究员。
判断这篇论文是否跟 multi-agent / tool use / agent collaboration 相关。
0-1 分,0.7 以上保留。
要准确,宁可漏不要错。
跑了 10 个月,false positive 率 8%,false negative 率 15%。他每周手动修正 2-3 次,prompt 持续优化。
每周 2 小时 · 重点论文精读(共生型)
每周固定 2-3 篇重点论文,他跟 Claude 一起精读:
[李] 这篇 "Toolformer" 的核心方法是什么?3 句话。
[Claude] 1. 用 LLM 自己标注哪些 API 调用有助下游任务。2. 训练模型学会调用。3. 在多个 NLU benchmark 上涨点。
[李] 它跟之前 ReAct 的本质区别?
[Claude] ReAct 是 inference-time 的 prompting,Toolformer 是 training-time 的 fine-tune。
[李] 所以本质上是从"会想"到"会做"的范式转移。
[Claude] 对。Llama 2 7B + Toolformer 在某些 task 超过 GPT-3.5 是这个论点的证据。
[李] 但我没看到它跟 OpenAI function calling 的对比。为什么?
[Claude] 可能因为 function calling 闭源,没法直接对比。论文里只在开放模型上做。
[李] 这个 gap 很有意思。记下来。
每月 8 小时 · 跨论文综合(驯化型)
每月写一份「multi-agent 方向进展」internal report,需要综合 30-40 篇论文。
他用 Claude 帮他从「我之前跟它聊过的论文摘要」里抽主线:
# 1 月 multi-agent 进展
[李] 把我 1 月聊过的 28 篇论文综合成 2000 字报告。
主线:multi-agent 协作的 3 个范式(debate / role-play / workflow)。
每条线给 3 篇代表论文 + 1 个 open question。
[Claude] (综合 180 秒后输出)
[李] 第 2 段的引用 paper 错了,应该是 "AutoGen" 不是 "ChatDev"。改。
[Claude] 改了。
[李] 其它 OK。发 lab 内部。
关键判断
李明用 agent 读 paper 的最大发现:
“Claude 让我从 ‘reading’ 变成 ‘thinking’。以前是 ‘读 30 篇 → 写报告’,现在是 ‘跟 Claude 聊 30 篇 → 自己想 → 写报告’。”
他以前每月读 30 篇,写 1 份报告(80% 时间在读,20% 在想)。现在每月读 30 篇但每篇平均 5 分钟 + 1 小时深度讨论 + 4 小时写报告(20% 在读,80% 在想)。
但他有一个警告:“Claude 给的论文总结 90% 是对的,10% 是编的(hallucinate 引用)“。他的对策是:所有引用必须人工回查 arxiv 原文。
写在最后
李明说他最担心的事不是被 agent 取代,是**“不读 paper 了”**。
他的对策是:每月强制自己读 2 篇 agent 完全帮不上忙的论文——比如理论数学的、哲学的。这些 paper 没有 abstract、没有方法章节、没有现成可提取的结构。这是他的「不被取代费」。