DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation
作者: Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee
分类: cs.CL
发布日期: 2025-12-19 (更新: 2026-02-03)
备注: Work in progress
💡 一句话要点
DEER:一个用于评估深度研究智能体生成专家报告的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度研究 专家报告生成 基准评估 自然语言处理 大型语言模型
📋 核心要点
- 现有深度研究报告评估缺乏系统性标准,难以全面衡量报告质量,尤其是在领域专业知识方面。
- DEER基准通过专家构建的分类体系,细化评估维度,并提供专家评估指南,提升评估的准确性和可靠性。
- DEER不仅评估报告的结构和证据引用,还验证报告中的声明,从而更全面地评估深度研究系统的能力。
📝 摘要(中文)
大型语言模型的最新进展推动了深度研究系统的发展,这些系统能够通过多步骤推理和基于证据的综合来生成专家级别的报告。然而,评估此类报告仍然具有挑战性:报告质量是多方面的,难以确定评估内容和标准;基于LLM的评估者可能会忽略需要领域专业知识才能识别的错误;并且由于深度研究依赖于检索到的证据,因此有必要进行报告范围内的声明验证。为了解决这些问题,我们提出了DEER,一个用于评估专家级深度研究报告的基准。DEER通过专家开发的分类法(7个维度,25个子维度)将评估标准系统化,并将其转化为101个细粒度的评估项。我们还提供特定于任务的专家评估指南,以支持基于LLM的判断。除了基于评估标准的评估之外,我们还提出了一种声明验证架构,该架构验证引用的和未引用的声明,并量化证据质量。实验表明,当前的深度研究系统可以生成结构上合理的报告,并引用外部证据,但在满足专家级用户请求和实现逻辑完整性方面仍有改进空间。除了简单的性能比较之外,DEER还使系统优势和局限性具有可解释性,并提供改进的诊断信号。
🔬 方法详解
问题定义:现有深度研究系统生成的专家报告的评估面临多重挑战。首先,报告质量是多方面的,难以确定评估维度和标准。其次,基于大型语言模型(LLM)的评估者可能缺乏领域专业知识,从而忽略报告中的错误。最后,由于深度研究依赖于检索到的证据,因此需要对报告中的声明进行验证,以确保其准确性和可靠性。
核心思路:DEER基准的核心思路是通过系统化的评估标准和细粒度的评估项,全面评估深度研究系统生成的专家报告的质量。该基准不仅关注报告的结构和证据引用,还验证报告中的声明,从而更全面地评估深度研究系统的能力。此外,DEER还提供专家评估指南,以支持基于LLM的评估者进行更准确的评估。
技术框架:DEER基准包含以下几个主要模块:1) 专家开发的分类法:该分类法包含7个维度和25个子维度,用于系统化评估报告质量。2) 细粒度的评估项:基于分类法,DEER定义了101个细粒度的评估项,用于量化评估报告的各个方面。3) 专家评估指南:该指南为基于LLM的评估者提供任务特定的指导,以帮助他们进行更准确的评估。4) 声明验证架构:该架构验证报告中引用的和未引用的声明,并量化证据质量。
关键创新:DEER基准的关键创新在于其系统化的评估标准和细粒度的评估项。与现有的评估方法相比,DEER能够更全面、更准确地评估深度研究系统生成的专家报告的质量。此外,DEER还提供专家评估指南和声明验证架构,进一步提高了评估的可靠性和有效性。
关键设计:DEER基准的关键设计包括:1) 专家开发的分类法:该分类法基于领域专家的知识和经验,确保评估标准的全面性和准确性。2) 细粒度的评估项:这些评估项将评估标准转化为可量化的指标,便于进行客观评估。3) 专家评估指南:该指南为基于LLM的评估者提供清晰的指导,减少了主观偏差。4) 声明验证架构:该架构使用自然语言处理技术,自动验证报告中的声明,提高了评估效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前的深度研究系统在生成结构上合理的报告和引用外部证据方面表现良好,但在满足专家级用户请求和实现逻辑完整性方面仍有改进空间。DEER基准能够有效区分不同系统的性能差异,并提供诊断信息,为系统改进提供指导。
🎯 应用场景
DEER基准可用于评估和比较不同的深度研究系统,从而推动该领域的发展。它还可以用于诊断现有系统的优势和局限性,并为改进提供指导。此外,DEER可以应用于其他需要生成高质量报告的领域,例如金融分析、医学诊断和法律研究。
📄 摘要(原文)
Recent advances in large language models have enabled deep research systems that generate expert-level reports through multi-step reasoning and evidence-based synthesis. However, evaluating such reports remains challenging: report quality is multifaceted, making it difficult to determine what to assess and by what criteria; LLM-based judges may miss errors that require domain expertise to identify; and because deep research relies on retrieved evidence, report-wide claim verification is also necessary. To address these issues, we propose DEER, a benchmark for evaluating expert-level deep research reports. DEER systematizes evaluation criteria with an expert-developed taxonomy (7 dimensions, 25 subdimensions) operationalized as 101 fine-grained rubric items. We also provide task-specific Expert Evaluation Guidance to support LLM-based judging. Alongside rubric-based assessment, we propose a claim verification architecture that verifies both cited and uncited claims and quantifies evidence quality. Experiments show that while current deep research systems can produce structurally plausible reports that cite external evidence, there is room for improvement in fulfilling expert-level user requests and achieving logical completeness. Beyond simple performance comparisons, DEER makes system strengths and limitations interpretable and provides diagnostic signals for improvement.