ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence

作者: Zhuofan Shi, Peilun Jia, Baoqin Sun, Haiyang Shen, Sixiong Xie, Yun Ma, Xiang Jing

分类: cs.CV, cs.IR

发布日期: 2026-05-13

💡 一句话要点

ViDR：提出一种基于源视觉证据的多模态深度研究报告生成框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 深度研究报告 视觉证据 图像检索 自然语言生成

📋 核心要点

现有深度研究系统主要依赖文本证据，对源图像的利用不足，限制了报告的证据基础和可验证性。
ViDR框架将源图像作为核心证据，通过检索、分析和验证，将其整合到研究报告中，增强了报告的可靠性。
实验表明，ViDR在报告质量、源图像集成和可验证性方面优于现有方法，证明了源视觉证据的重要性。

📝 摘要（中文）

本文提出ViDR，一个将长篇报告建立在源图像上的多模态深度研究框架。ViDR将源图像视为可检索、可解释、可路由和可验证的证据对象，同时在需要时生成分析图表。它构建了一个证据索引大纲，将声明与文本和视觉证据联系起来，通过上下文感知的过滤、大纲感知的重排序和基于VLM的视觉分析，将嘈杂的网络图像提炼成源图像证据原子，并使用特定于章节的证据生成每个章节。ViDR进一步验证视觉引用，以减少幻觉或错位的图像。此外，本文还引入了MMR Bench+，一个用于评估深度研究报告中视觉证据使用的基准，涵盖源图像检索、放置、解释、可验证性和分析图表生成。实验表明，ViDR提高了报告的整体质量、源图像集成和可验证性，优于强大的商业和开源基线。这些结果表明，源视觉证据对于多模态深度研究非常重要，因为它加强了证据基础、视觉支持和报告可验证性。

🔬 方法详解

问题定义：现有深度研究报告生成系统主要依赖文本证据，对图像等视觉证据的利用不足。即使是多模态系统，也往往只是简单地检索图像或生成图表，而忽略了原始研究报告中包含的源图像。这导致报告的证据基础薄弱，可验证性差，无法充分利用视觉信息。

核心思路：ViDR的核心思路是将源图像视为一种重要的证据形式，并将其有效地整合到研究报告生成过程中。通过将图像视为可检索、可解释、可路由和可验证的证据对象，ViDR能够更好地利用视觉信息来支持报告中的论点，提高报告的质量和可信度。同时，ViDR仍然保留了生成分析图表的能力，以补充源图像的不足。

技术框架：ViDR框架包含以下几个主要模块：1) 证据索引大纲构建：将报告中的声明与文本和视觉证据联系起来。2) 源图像证据原子提炼：通过上下文感知的过滤、大纲感知的重排序和基于VLM的视觉分析，将从网络上检索到的嘈杂图像提炼成高质量的源图像证据。3) 章节生成：使用特定于章节的证据生成每个章节的内容。4) 视觉引用验证：验证视觉引用的准确性，减少幻觉或错位的图像。

关键创新：ViDR最重要的创新在于它将源图像视为一种核心的证据形式，并设计了一套完整的流程来有效地利用这些图像。与现有方法相比，ViDR更加注重对源图像的理解和分析，能够更好地将图像信息整合到报告中，从而提高报告的质量和可验证性。此外，ViDR还引入了MMR Bench+基准，用于评估视觉证据在深度研究报告中的使用情况。

关键设计：ViDR的关键设计包括：1) 使用上下文感知的过滤来去除不相关的网络图像。2) 使用大纲感知的重排序来选择与报告主题更相关的图像。3) 使用基于VLM的视觉分析来理解图像的内容。4) 使用视觉引用验证来确保图像的准确性和一致性。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述，此处未知。

📊 实验亮点

实验结果表明，ViDR在报告质量、源图像集成和可验证性方面均优于现有的商业和开源基线。具体来说，ViDR在MMR Bench+基准测试中取得了显著的提升，证明了其在视觉证据利用方面的优势。这些结果表明，源视觉证据对于多模态深度研究至关重要。

🎯 应用场景

ViDR框架可应用于自动生成高质量的研究报告、技术文档和新闻报道等领域。通过有效利用源图像等视觉证据，ViDR能够提高报告的证据基础、可验证性和可信度，帮助研究人员、工程师和记者更高效地撰写和传播信息。未来，ViDR有望成为一个强大的辅助工具，提升信息生产的效率和质量。

📄 摘要（原文）

Recent deep research systems have improved the ability of large language models to produce long, grounded reports through iterative retrieval and reasoning. However, most text-centered systems rely mainly on textual evidence, while multimodal systems often retrieve images only weakly or generate charts themselves, leaving source figures underused as evidence. We present ViDR, a multimodal deep research framework that grounds long-form reports in source figures. ViDR treats source figures as retrievable, interpretable, routable, and verifiable evidence objects, while still generating analytical charts when needed. It builds an evidence-indexed outline linking claims to textual and visual evidence, refines noisy web images into source-figure evidence atoms through context-aware filtering, outline-aware reranking, and VLM-based visual analysis, and generates each section with section-specific evidence. ViDR further validates visual references to reduce hallucinated or misplaced figures. We also introduce MMR Bench+, a benchmark for evaluating visual evidence use in deep research reports, covering source-figure retrieval, placement, interpretation, verifiability, and analytical chart generation. Experiments show that ViDR improves overall report quality, source-figure integration, and verifiability over strong commercial and open-source baselines. These results suggest that source visual evidence is important for multimodal deep research, as it strengthens evidential grounding, visual support, and report verifiability.

ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理