Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

作者: Chenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou

分类: cs.CL, cs.AI

发布日期: 2026-05-28

💡 一句话要点

提出Ptah：一个多智能体框架，用于生成可验证的多模态深度研究报告

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态报告生成 深度研究 多智能体系统 可验证性 视觉工作记忆

📋 核心要点

现有深度研究方法在生成多模态报告时，缺乏可验证性，难以保证事实依据、引用保真度和跨模态一致性。
Ptah通过多智能体协作，将报告生成过程分解为规划、研究和写作阶段，并引入验证器智能体来保证报告质量。
实验表明，Ptah在深度研究基准上优于现有方法，生成了更可靠、信息丰富且易于使用的多模态报告。

📝 摘要（中文）

大型语言模型（LLMs）已经将自主智能体从深度搜索（检索简洁的事实性答案）推进到深度研究（将分散的证据合成为长篇报告）。然而，可验证的多模态深度研究仍然具有挑战性，因为其开放式的合成过程缺乏确定性的标准答案，并且需要将文本论证与视觉证据交错呈现。我们提出了 extsc{Ptah}，一个用于交错报告生成的多智能体框架。 extsc{Ptah}通过规划、研究和写作阶段来协调从用户查询到渲染的Web报告的整个生命周期，其中专门的智能体构建视觉感知的计划，收集基于声明的证据，在 extit{Visual Working Memory}中维护源对齐的图像，并通过声明式的多模态工具使用来撰写报告。一个验证器智能体作为框架的验收函数，在整个工作流程中强制执行事实依据、引用保真度和跨模态一致性。我们进一步引入了 extsc{Ptah}Eval，一个评估协议，通过图像级别和演示级别的评估来增强现有的基准。在深度研究基准上的实验表明，与强大的基线相比， extsc{Ptah}生成了更可靠、视觉信息更丰富且更易于使用的人机交互多模态报告。

🔬 方法详解

问题定义：论文旨在解决多模态深度研究报告生成中可验证性不足的问题。现有方法在开放式的报告合成过程中，难以保证事实依据、引用保真度和跨模态一致性，导致生成的报告可能包含错误信息或不准确的视觉证据。

核心思路：论文的核心思路是将报告生成过程分解为多个阶段，并由不同的智能体负责。通过引入一个验证器智能体，在整个工作流程中强制执行事实依据、引用保真度和跨模态一致性，从而提高报告的可验证性。

技术框架：Ptah框架包含规划、研究和写作三个主要阶段。规划阶段由规划智能体根据用户查询生成视觉感知的计划；研究阶段由研究智能体收集基于声明的证据，并在视觉工作记忆中维护源对齐的图像；写作阶段由写作智能体通过声明式的多模态工具使用来撰写报告。验证器智能体在每个阶段对结果进行验证，确保报告质量。

关键创新：Ptah的关键创新在于引入了多智能体协作和验证器智能体。多智能体协作将复杂的报告生成任务分解为多个子任务，提高了效率和可控性。验证器智能体通过强制执行事实依据、引用保真度和跨模态一致性，显著提高了报告的可验证性。

关键设计：Ptah框架的关键设计包括视觉工作记忆（Visual Working Memory），用于存储和管理图像证据；声明式的多模态工具使用，允许写作智能体以结构化的方式生成报告；以及验证器智能体的具体验证规则，例如事实查证、引用匹配和图像内容一致性检查。具体的参数设置、损失函数和网络结构等细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Ptah在深度研究基准上显著优于现有方法。具体而言，Ptah生成的报告在事实依据、引用保真度和跨模态一致性方面均有显著提升，同时在视觉信息丰富度和用户可用性方面也表现更佳。具体的性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

该研究成果可应用于自动化报告生成、智能问答系统、教育辅助工具等领域。例如，可以用于生成新闻报道、研究报告、产品说明书等，提高信息获取和知识传播的效率。未来，该技术有望应用于更复杂的场景，例如辅助医疗诊断、智能城市管理等。

📄 摘要（原文）

Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, which synthesizes scattered evidence into long-form reports. However, verifiable multimodal deep research remains challenging due to open-ended synthesis without deterministic ground truth and the need to interleave textual arguments with visual evidence. We propose \textsc{Ptah}, a multi-agent harness for interleaved report generation. \textsc{Ptah} orchestrates the lifecycle from user query to rendered web report through planning, research, and writing stages, where specialized agents construct visual-aware plans, collect claim-grounded evidence, maintain source-aligned images in a \textit{Visual Working Memory}, and compose reports through declarative multimodal tool use. A verifier agent serves as the harness's acceptance function, enforcing factual grounding, citation fidelity, and cross-modal consistency throughout the workflow. We further introduce \textsc{Ptah}Eval, an evaluation protocol that augments existing benchmarks with image-level and presentation-level assessments. Experiments on deep research benchmarks show that \textsc{Ptah} produces more reliable, visually informative, and usable human-facing multimodal reports than strong baselines.

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理