DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

📄 arXiv: 2604.14683v1 📥 PDF

作者: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu

分类: cs.AI

发布日期: 2026-04-16


💡 一句话要点

提出DR³-Eval:一个用于评估深度研究Agent的现实且可复现的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度研究Agent 评估基准 多模态报告生成 信息检索 事实准确性

📋 核心要点

  1. 现有深度研究Agent的评估面临动态Web环境和模糊任务定义的挑战,难以保证评估的现实性和可复现性。
  2. DR³-Eval构建了一个基于真实用户材料和静态研究沙箱的评估基准,旨在模拟真实Web环境并保证评估的可验证性。
  3. 实验表明,DR³-Eval对现有深度研究Agent提出了挑战,并揭示了它们在检索鲁棒性和幻觉控制方面的不足。

📝 摘要(中文)

深度研究Agent (DRAs) 旨在解决复杂的、长时程的研究任务,这些任务涉及规划、检索、多模态理解和报告生成。然而,由于动态的Web环境和模糊的任务定义,对其进行评估仍然具有挑战性。我们提出了DR³-Eval,这是一个现实且可复现的基准,用于评估多模态、多文件报告生成方面的深度研究Agent。DR³-Eval由真实的用户提供的材料构建,并与每个任务的静态研究沙箱语料库配对,该语料库模拟了开放Web的复杂性,同时保持完全可验证性,包含支持性文档、干扰项和噪声。此外,我们引入了一个多维评估框架,用于衡量信息召回率、事实准确性、引文覆盖率、指令遵循和深度质量,并验证了其与人类判断的一致性。我们基于多个最先进的语言模型开发的多Agent系统DR³-Agent的实验表明,DR³-Eval具有很高的挑战性,并揭示了检索鲁棒性和幻觉控制方面的关键失败模式。我们的代码和数据已公开。

🔬 方法详解

问题定义:深度研究Agent (DRAs) 需要执行复杂的、长期的研究任务,例如规划、信息检索、多模态理解和报告生成。现有的评估方法难以在动态变化的Web环境中进行,并且任务定义常常模糊不清,导致评估结果缺乏现实性和可复现性。现有方法难以有效评估Agent在真实场景下的表现,尤其是在信息检索的鲁棒性和减少幻觉方面。

核心思路:DR³-Eval的核心思路是构建一个既能模拟真实Web环境的复杂性,又能保证评估过程可控和可复现的基准。通过使用真实用户提供的材料和静态研究沙箱语料库,DR³-Eval提供了一个更现实的评估环境,同时避免了动态Web环境带来的不确定性。

技术框架:DR³-Eval包含以下几个关键组成部分:1) 基于真实用户材料构建的任务数据集;2) 一个静态研究沙箱语料库,包含支持性文档、干扰项和噪声,用于模拟开放Web环境;3) 一个多维评估框架,用于衡量信息召回率、事实准确性、引文覆盖率、指令遵循和深度质量。研究人员可以使用DR³-Eval来评估他们的深度研究Agent在多模态、多文件报告生成方面的性能。

关键创新:DR³-Eval的关键创新在于其评估环境的现实性和可复现性。与以往的评估方法相比,DR³-Eval使用真实用户提供的材料和静态研究沙箱语料库,更贴近真实的研究场景。此外,DR³-Eval的多维评估框架能够更全面地评估Agent的性能,包括信息召回率、事实准确性、引文覆盖率、指令遵循和深度质量。

关键设计:DR³-Eval的关键设计包括:1) 静态研究沙箱语料库的构建,需要精心选择支持性文档、干扰项和噪声,以模拟真实Web环境的复杂性;2) 多维评估框架的设计,需要定义清晰的评估指标,并确保这些指标与人类判断一致;3) 数据集的构建,需要保证数据的真实性和多样性,以覆盖不同的研究领域和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于最先进语言模型构建的DR³-Agent在DR³-Eval上表现出显著的挑战,尤其是在检索鲁棒性和幻觉控制方面。这些结果验证了DR³-Eval的挑战性,并揭示了现有深度研究Agent的不足之处。DR³-Eval为未来的研究提供了一个有价值的评估平台,可以促进深度研究Agent的进一步发展。

🎯 应用场景

DR³-Eval可用于评估和改进深度研究Agent在信息检索、报告生成和知识整合等方面的能力。该基准可以促进深度研究Agent在自动化科研、智能助手和决策支持等领域的应用,提高科研效率和决策质量。未来,该基准可以扩展到更多领域和任务,并与其他评估方法相结合,构建更完善的深度研究Agent评估体系。

📄 摘要(原文)

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR$^{3}$-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR$^{3}$-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR$^{3}$-Agent based on multiple state-of-the-art language models demonstrate that DR$^{3}$-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.