ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

📄 arXiv: 2508.15804v1 📥 PDF

作者: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia

分类: cs.CL, cs.AI

发布日期: 2025-08-14

🔗 代码/项目: GITHUB


💡 一句话要点

ReportBench:通过学术综述任务评估深度研究智能体的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度研究智能体 评估基准 大型语言模型 学术综述 自动化评估

📋 核心要点

  1. 现有深度研究智能体缺乏系统性的评估基准,难以保证生成报告的事实准确性和全面性。
  2. ReportBench利用高质量学术综述,通过逆向提示工程构建评估语料库,并设计自动化评估框架。
  3. 实验表明,商业深度研究智能体优于传统LLM,但在研究深度和事实一致性方面仍有提升空间。

📝 摘要(中文)

深度研究智能体的出现大大缩短了进行广泛研究任务所需的时间。然而,这些任务本质上需要严格的事实准确性和全面性标准,因此在广泛采用之前需要进行彻底的评估。本文提出了ReportBench,这是一个系统性的基准,旨在评估大型语言模型(LLM)生成的科研报告的内容质量。我们的评估侧重于两个关键维度:(1)引用的文献的质量和相关性,以及(2)生成的报告中陈述的忠实性和准确性。ReportBench利用arXiv上可用的高质量已发表综述论文作为黄金标准参考,我们从中应用逆向提示工程来推导出特定领域的提示,并建立一个全面的评估语料库。此外,我们在ReportBench中开发了一个基于代理的自动化框架,该框架通过提取引文和陈述,检查引用的内容与原始来源的忠实性,并使用基于网络的资源验证未引用的声明,从而系统地分析生成的报告。实证评估表明,OpenAI和Google等公司开发的商业深度研究智能体始终比使用搜索或浏览工具增强的独立LLM生成更全面和可靠的报告。然而,在研究覆盖的广度和深度以及事实一致性方面,仍有很大的改进空间。完整的代码和数据将在以下链接发布:https://github.com/ByteDance-BandAI/ReportBench

🔬 方法详解

问题定义:论文旨在解决深度研究智能体生成报告质量评估的问题。现有方法缺乏系统性、客观性的评估标准,难以衡量报告的事实准确性、文献相关性和内容全面性。现有方法依赖人工评估,成本高昂且难以规模化。

核心思路:论文的核心思路是构建一个自动化的评估基准ReportBench,利用高质量的学术综述作为黄金标准,通过逆向提示工程生成评估prompt,并设计自动化代理来评估生成报告的质量。通过与黄金标准对比,客观衡量生成报告的质量。

技术框架:ReportBench包含以下主要模块:1) 基于arXiv的高质量综述论文数据集;2) 逆向提示工程模块,用于生成特定领域的评估prompt;3) 基于代理的自动化评估框架,包含引文提取、事实核查、网络验证等模块。整体流程是:首先,从arXiv获取综述论文;然后,通过逆向提示工程生成prompt;接着,使用prompt驱动深度研究智能体生成报告;最后,使用自动化评估框架评估报告质量。

关键创新:ReportBench的关键创新在于:1) 提出了一个系统性的、自动化的深度研究智能体评估基准;2) 利用逆向提示工程,从高质量学术综述中生成评估prompt;3) 设计了一个基于代理的自动化评估框架,能够自动提取引文、核查事实、验证信息。

关键设计:逆向提示工程的具体实现方式未知,自动化评估框架中引文提取、事实核查、网络验证等模块的具体算法细节未知。论文未明确说明关键参数设置、损失函数和网络结构等技术细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,商业深度研究智能体(如OpenAI和Google开发的)在生成报告的全面性和可靠性方面优于使用搜索或浏览工具增强的独立LLM。然而,所有被评估的智能体在研究的广度和深度以及事实一致性方面仍有很大的改进空间。具体的性能数据和提升幅度未知。

🎯 应用场景

ReportBench可用于评估和改进深度研究智能体的性能,帮助研究人员和开发者更好地理解和优化智能体的研究能力。该基准还可用于比较不同智能体的性能,推动深度研究智能体领域的发展。未来,该基准可以扩展到其他领域,例如医疗、金融等,为各行各业提供更可靠的研究支持。

📄 摘要(原文)

The advent of Deep Research agents has substantially reduced the time required for conducting extensive research tasks. However, these tasks inherently demand rigorous standards of factual accuracy and comprehensiveness, necessitating thorough evaluation before widespread adoption. In this paper, we propose ReportBench, a systematic benchmark designed to evaluate the content quality of research reports generated by large language models (LLMs). Our evaluation focuses on two critical dimensions: (1) the quality and relevance of cited literature, and (2) the faithfulness and veracity of the statements within the generated reports. ReportBench leverages high-quality published survey papers available on arXiv as gold-standard references, from which we apply reverse prompt engineering to derive domain-specific prompts and establish a comprehensive evaluation corpus. Furthermore, we develop an agent-based automated framework within ReportBench that systematically analyzes generated reports by extracting citations and statements, checking the faithfulness of cited content against original sources, and validating non-cited claims using web-based resources. Empirical evaluations demonstrate that commercial Deep Research agents such as those developed by OpenAI and Google consistently generate more comprehensive and reliable reports than standalone LLMs augmented with search or browsing tools. However, there remains substantial room for improvement in terms of the breadth and depth of research coverage, as well as factual consistency. The complete code and data will be released at the following link: https://github.com/ByteDance-BandAI/ReportBench