Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
作者: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou
分类: cs.CL, cs.AI
发布日期: 2026-05-28
💡 一句话要点
提出Ptah:一个多智能体框架,用于生成可验证的多模态深度研究报告
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态报告生成 深度研究 多智能体系统 可验证性 视觉工作记忆
📋 核心要点
- 现有深度研究方法在生成多模态报告时,缺乏可验证性,难以保证事实依据、引用保真度和跨模态一致性。
- Ptah通过多智能体协作,将报告生成过程分解为规划、研究和写作阶段,并引入验证器智能体来保证报告质量。
- 实验表明,Ptah在深度研究基准上优于现有方法,生成了更可靠、信息丰富且易于使用的多模态报告。
📝 摘要(中文)
大型语言模型(LLMs)已经将自主智能体从深度搜索(检索简洁的事实性答案)推进到深度研究(将分散的证据合成为长篇报告)。然而,可验证的多模态深度研究仍然具有挑战性,因为其开放式的合成过程缺乏确定性的标准答案,并且需要将文本论证与视觉证据交错呈现。我们提出了 extsc{Ptah},一个用于交错报告生成的多智能体框架。 extsc{Ptah}通过规划、研究和写作阶段来协调从用户查询到渲染的Web报告的整个生命周期,其中专门的智能体构建视觉感知的计划,收集基于声明的证据,在 extit{Visual Working Memory}中维护源对齐的图像,并通过声明式的多模态工具使用来撰写报告。一个验证器智能体作为框架的验收函数,在整个工作流程中强制执行事实依据、引用保真度和跨模态一致性。我们进一步引入了 extsc{Ptah}Eval,一个评估协议,通过图像级别和演示级别的评估来增强现有的基准。在深度研究基准上的实验表明,与强大的基线相比, extsc{Ptah}生成了更可靠、视觉信息更丰富且更易于使用的人机交互多模态报告。
🔬 方法详解
问题定义:论文旨在解决多模态深度研究报告生成中可验证性不足的问题。现有方法在开放式的报告合成过程中,难以保证事实依据、引用保真度和跨模态一致性,导致生成的报告可能包含错误信息或不准确的视觉证据。
核心思路:论文的核心思路是将报告生成过程分解为多个阶段,并由不同的智能体负责。通过引入一个验证器智能体,在整个工作流程中强制执行事实依据、引用保真度和跨模态一致性,从而提高报告的可验证性。
技术框架:Ptah框架包含规划、研究和写作三个主要阶段。规划阶段由规划智能体根据用户查询生成视觉感知的计划;研究阶段由研究智能体收集基于声明的证据,并在视觉工作记忆中维护源对齐的图像;写作阶段由写作智能体通过声明式的多模态工具使用来撰写报告。验证器智能体在每个阶段对结果进行验证,确保报告质量。
关键创新:Ptah的关键创新在于引入了多智能体协作和验证器智能体。多智能体协作将复杂的报告生成任务分解为多个子任务,提高了效率和可控性。验证器智能体通过强制执行事实依据、引用保真度和跨模态一致性,显著提高了报告的可验证性。
关键设计:Ptah框架的关键设计包括视觉工作记忆(Visual Working Memory),用于存储和管理图像证据;声明式的多模态工具使用,允许写作智能体以结构化的方式生成报告;以及验证器智能体的具体验证规则,例如事实查证、引用匹配和图像内容一致性检查。具体的参数设置、损失函数和网络结构等细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Ptah在深度研究基准上显著优于现有方法。具体而言,Ptah生成的报告在事实依据、引用保真度和跨模态一致性方面均有显著提升,同时在视觉信息丰富度和用户可用性方面也表现更佳。具体的性能数据和提升幅度在论文中进行了详细展示。
🎯 应用场景
该研究成果可应用于自动化报告生成、智能问答系统、教育辅助工具等领域。例如,可以用于生成新闻报道、研究报告、产品说明书等,提高信息获取和知识传播的效率。未来,该技术有望应用于更复杂的场景,例如辅助医疗诊断、智能城市管理等。
📄 摘要(原文)
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose \textsc{Ptah}, a multi-agent harness for interleaved report generation. \textsc{Ptah} orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a \textit{Visual Working Memory}, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce \textsc{Ptah}Eval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that \textsc{Ptah} produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.