DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing

📄 arXiv: 2601.03540v1 📥 PDF

作者: Hongzhi Zhang, Yuanze Hu, Tinghai Zhang, Jia Fu, Tao Wang, Junwei Jing, Zhaoxin Fan, Qi Wang, Ruiming Tang, Han Li, Guorui Zhou, Kun Gai

分类: cs.CL

发布日期: 2026-01-07


💡 一句话要点

DeepSynth-Eval:提出客观评估深度调研写作中信息整合能力的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度调研 信息整合 大型语言模型 评估基准 综述写作

📋 核心要点

  1. 现有方法难以客观评估LLM在深度调研写作中整合大量信息的能力,缺乏有效的评估基准。
  2. DeepSynth-Eval通过逆向工程综述论文,构建“Oracle Contexts”,隔离检索噪声,专注评估信息整合能力。
  3. 实验表明,代理式的计划和写作流程优于单轮生成,能有效减少幻觉并更好地遵守结构约束。

📝 摘要(中文)

大型语言模型(LLMs)向自主代理的演进推动了深度研究的发展。虽然检索能力已经得到了充分的基准测试,但检索后的综合阶段——代理必须消化大量上下文并将分散的证据整合为连贯的长篇报告——由于开放式写作的主观性,仍然未得到充分评估。为了弥合这一差距,我们引入了DeepSynth-Eval,这是一个旨在客观评估信息整合能力的基准。我们利用高质量的综述论文作为黄金标准,逆向工程研究请求,并从其参考文献中构建“Oracle Contexts”,以将综合与检索噪声隔离开来。我们提出了一种使用通用检查表(用于事实覆盖)和约束检查表(用于结构组织)的细粒度评估协议,将主观判断转化为可验证的指标。对96个任务的实验表明,从数百篇参考文献中综合信息仍然是一个重大挑战。我们的结果表明,代理式的计划和写作工作流程明显优于单轮生成,有效地减少了幻觉并提高了对复杂结构约束的遵守。

🔬 方法详解

问题定义:现有的大型语言模型在深度调研写作中,尤其是在检索到大量信息后,如何有效地整合这些信息并生成连贯、结构化的报告仍然是一个挑战。现有的评估方法往往依赖于主观判断,缺乏客观、可验证的指标来衡量信息整合能力。现有方法难以区分检索能力和信息整合能力,容易受到检索噪声的干扰。

核心思路:该论文的核心思路是利用高质量的综述论文作为黄金标准,通过逆向工程的方式,从综述论文的参考文献中构建“Oracle Contexts”,模拟真实的研究场景。通过这种方式,可以将评估的重点放在信息整合能力上,而排除检索环节的干扰。同时,论文提出了使用通用检查表和约束检查表进行细粒度评估的方法,将主观判断转化为可验证的指标。

技术框架:DeepSynth-Eval的整体框架包括以下几个主要步骤:1) 选择高质量的综述论文作为黄金标准;2) 逆向工程研究请求,确定综述论文的研究主题;3) 从综述论文的参考文献中构建“Oracle Contexts”,作为LLM的输入;4) 使用LLM生成调研报告;5) 使用通用检查表和约束检查表对生成的报告进行评估。通用检查表用于评估报告的事实覆盖率,约束检查表用于评估报告的结构组织。

关键创新:该论文的关键创新在于提出了一个客观评估信息整合能力的基准DeepSynth-Eval。该基准通过逆向工程综述论文,构建“Oracle Contexts”,隔离了检索噪声,使得评估可以专注于信息整合能力。此外,论文提出的使用通用检查表和约束检查表进行细粒度评估的方法,将主观判断转化为可验证的指标,提高了评估的客观性和可重复性。

关键设计:在构建“Oracle Contexts”时,需要仔细选择综述论文的参考文献,确保这些参考文献能够覆盖综述论文的主要内容。在设计通用检查表和约束检查表时,需要根据研究主题和报告的结构特点,制定具体的评估指标。在实验中,论文比较了单轮生成和代理式的计划和写作流程,发现代理式的流程能够更好地整合信息并生成高质量的报告。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。

📊 实验亮点

实验结果表明,DeepSynth-Eval基准能够有效评估LLM的信息整合能力。代理式的计划和写作流程在信息整合方面显著优于单轮生成,能够减少幻觉并更好地遵守结构约束。具体性能数据和提升幅度在摘要中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在深度调研、报告撰写、知识库构建等领域的应用能力。通过客观评估信息整合能力,可以推动LLM在科研、咨询、教育等领域的更广泛应用,并提高生成内容的质量和可靠性。

📄 摘要(原文)

The evolution of Large Language Models (LLMs) towards autonomous agents has catalyzed progress in Deep Research. While retrieval capabilities are well-benchmarked, the post-retrieval synthesis stage--where agents must digest massive amounts of context and consolidate fragmented evidence into coherent, long-form reports--remains under-evaluated due to the subjectivity of open-ended writing. To bridge this gap, we introduce DeepSynth-Eval, a benchmark designed to objectively evaluate information consolidation capabilities. We leverage high-quality survey papers as gold standards, reverse-engineering research requests and constructing "Oracle Contexts" from their bibliographies to isolate synthesis from retrieval noise. We propose a fine-grained evaluation protocol using General Checklists (for factual coverage) and Constraint Checklists (for structural organization), transforming subjective judgment into verifiable metrics. Experiments across 96 tasks reveal that synthesizing information from hundreds of references remains a significant challenge. Our results demonstrate that agentic plan-and-write workflows significantly outperform single-turn generation, effectively reducing hallucinations and improving adherence to complex structural constraints.