EpiBench: Benchmarking Multi-turn Research Workflows for Multimodal Agents

📄 arXiv: 2604.05557v1 📥 PDF

作者: Xuan Dong, Huanyang Zheng, Tianhao Niu, Zhe Han, Pengzhan Li, Bofei Liu, Zhengyang Liu, Guancheng Li, Qingfu Zhu, Wanxiang Che

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

EpiBench:用于多模态Agent的多轮研究工作流评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 科研工作流 评测基准 多轮交互 证据整合

📋 核心要点

  1. 现有基准测试缺乏对Agent在多轮交互中主动搜索、整合多篇论文证据并长期使用的能力进行系统评估。
  2. EpiBench通过构建情景式的多轮多模态评测基准,模拟简短的研究工作流程,评估Agent的科研能力。
  3. 实验结果表明,即使是领先的模型在EpiBench的困难数据集上表现也远未达到理想水平,存在显著提升空间。

📝 摘要(中文)

科学研究遵循多轮、多步骤的工作流程,需要主动搜索文献,查阅图表,并整合论文中的证据,以对齐实验设置并支持可复现的结论。现有的评测基准在很大程度上低估了主动搜索、多证据整合和长期证据使用的能力,未能系统地评估这种联合能力。本文提出了EpiBench,一个情景式的多轮多模态评测基准,用于实例化简短的研究工作流程。给定一个研究任务,Agent必须在多轮交互中浏览论文,对齐来自图表的证据,并使用记忆中积累的证据来回答客观问题,这些问题需要跨论文比较和多图整合。EpiBench引入了一个过程级别的评估框架,用于对研究Agent进行细粒度的测试和诊断。实验表明,即使是领先的模型在困难数据集上的准确率也仅为29.23%,表明在多轮、多证据研究工作流程中仍有很大的改进空间,为可验证和可复现的研究Agent提供了一个评估平台。

🔬 方法详解

问题定义:现有Agent在模拟科研任务时,缺乏有效的主动搜索文献、整合多篇论文证据(包括图表)以及长期记忆利用的能力。现有的benchmark无法充分评估这些能力,导致Agent在复杂科研场景下的表现不佳。

核心思路:EpiBench的核心在于构建一个多轮交互式的科研任务环境,Agent需要在环境中主动搜索相关论文,从论文的文本和图表中提取证据,并将这些证据整合起来,最终回答需要跨论文比较和多图整合的问题。通过这种方式,可以更全面地评估Agent的科研能力。

技术框架:EpiBench包含以下主要组成部分:1) 一个包含多个科研任务的数据集,每个任务都模拟一个简短的研究工作流程。2) 一个交互环境,Agent可以在其中搜索论文、查看图表,并回答问题。3) 一个评估框架,用于细粒度地评估Agent在不同阶段的表现,例如搜索效率、证据整合能力和长期记忆利用能力。

关键创新:EpiBench的关键创新在于其情景式的多轮交互设计,以及对Agent在科研任务中各个环节的细粒度评估。与以往的benchmark相比,EpiBench更贴近真实的科研场景,能够更有效地评估Agent的科研能力。

关键设计:EpiBench的数据集包含多种类型的科研任务,例如比较不同实验设置下的结果、整合多个图表中的信息等。评估框架采用过程级别的评估方法,可以评估Agent在每个交互轮次中的表现,并诊断Agent的不足之处。具体参数设置和网络结构取决于所使用的Agent模型,论文未明确指定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是领先的模型在EpiBench的困难数据集上,准确率也仅为29.23%。这表明现有的Agent在多轮、多证据研究工作流程中仍有很大的改进空间。EpiBench提供了一个评估平台,可以帮助研究人员更好地了解Agent的不足之处,并开发更有效的解决方案。

🎯 应用场景

EpiBench的潜在应用领域包括:开发更智能的科研助手,帮助研究人员更高效地搜索文献、整合信息和分析数据;构建自动化科研系统,能够自动完成一些简单的科研任务;评估和改进现有的自然语言处理模型在科研领域的应用效果。该研究有助于推动人工智能在科学研究中的应用,提高科研效率和质量。

📄 摘要(原文)

Scientific research follows multi-turn, multi-step workflows that require proactively searching the literature, consulting figures and tables, and integrating evidence across papers to align experimental settings and support reproducible conclusions. This joint capability is not systematically assessed in existing benchmarks, which largely under-evaluate proactive search, multi-evidence integration and sustained evidence use over time. In this work, we introduce EpiBench, an episodic multi-turn multimodal benchmark that instantiates short research workflows. Given a research task, agents must navigate across papers over multiple turns, align evidence from figures and tables, and use the accumulated evidence in the memory to answer objective questions that require cross paper comparisons and multi-figure integration. EpiBench introduces a process-level evaluation framework for fine-grained testing and diagnosis of research agents. Our experiments show that even the leading model achieves an accuracy of only 29.23% on the hard split, indicating substantial room for improvement in multi-turn, multi-evidence research workflows, providing an evaluation platform for verifiable and reproducible research agents.