一个 AI 研究员用 agent 读 paper 的方法

主体

李明（化名），上海某 AI lab 博士在读，研究方向：multi-agent 协作。他每周要读 20-30 篇 arxiv 论文。

2025 年初开始用 Claude 帮他做 literature review。10 个月下来，工具链换了 4 次，目前这版最稳。

工作流

每日 30 分钟 · arxiv 扫读（指挥型）

# arxiv_scraper.py
def daily_scan(category: str, max_n: int = 30):
    """抓取今天 arxiv-{category} 的所有新论文，过滤掉不相关的"""
    papers = arxiv_api.query(category=category, max_results=max_n)
    for p in papers:
        if claude_relevance_check(p.abstract) > 0.7:
            send_to_notion(p)

claude_relevance_check 是他调过的 prompt（驯化型）：

你是 multi-agent 协作方向的资深研究员。
判断这篇论文是否跟 multi-agent / tool use / agent collaboration 相关。
0-1 分，0.7 以上保留。
要准确，宁可漏不要错。

跑了 10 个月，false positive 率 8%，false negative 率 15%。他每周手动修正 2-3 次，prompt 持续优化。

每周 2 小时 · 重点论文精读（共生型）

每周固定 2-3 篇重点论文，他跟 Claude 一起精读：

[李] 这篇 "Toolformer" 的核心方法是什么？3 句话。
[Claude] 1. 用 LLM 自己标注哪些 API 调用有助下游任务。2. 训练模型学会调用。3. 在多个 NLU benchmark 上涨点。
[李] 它跟之前 ReAct 的本质区别？
[Claude] ReAct 是 inference-time 的 prompting，Toolformer 是 training-time 的 fine-tune。
[李] 所以本质上是从"会想"到"会做"的范式转移。
[Claude] 对。Llama 2 7B + Toolformer 在某些 task 超过 GPT-3.5 是这个论点的证据。
[李] 但我没看到它跟 OpenAI function calling 的对比。为什么？
[Claude] 可能因为 function calling 闭源，没法直接对比。论文里只在开放模型上做。
[李] 这个 gap 很有意思。记下来。

每月 8 小时 · 跨论文综合（驯化型）

每月写一份「multi-agent 方向进展」internal report，需要综合 30-40 篇论文。

他用 Claude 帮他从「我之前跟它聊过的论文摘要」里抽主线：

# 1 月 multi-agent 进展
[李] 把我 1 月聊过的 28 篇论文综合成 2000 字报告。
    主线：multi-agent 协作的 3 个范式（debate / role-play / workflow）。
    每条线给 3 篇代表论文 + 1 个 open question。
[Claude] （综合 180 秒后输出）
[李] 第 2 段的引用 paper 错了，应该是 "AutoGen" 不是 "ChatDev"。改。
[Claude] 改了。
[李] 其它 OK。发 lab 内部。

关键判断

李明用 agent 读 paper 的最大发现：

“Claude 让我从 ‘reading’ 变成 ‘thinking’。以前是 ‘读 30 篇 → 写报告’，现在是 ‘跟 Claude 聊 30 篇 → 自己想 → 写报告’。”

他以前每月读 30 篇，写 1 份报告（80% 时间在读，20% 在想）。现在每月读 30 篇但每篇平均 5 分钟 + 1 小时深度讨论 + 4 小时写报告（20% 在读，80% 在想）。

但他有一个警告：“Claude 给的论文总结 90% 是对的，10% 是编的（hallucinate 引用）“。他的对策是：所有引用必须人工回查 arxiv 原文。

写在最后

李明说他最担心的事不是被 agent 取代，是**“不读 paper 了”**。

他的对策是：每月强制自己读 2 篇 agent 完全帮不上忙的论文——比如理论数学的、哲学的。这些 paper 没有 abstract、没有方法章节、没有现成可提取的结构。这是他的「不被取代费」。