VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
作者: Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang, Zhuoning Guo, Bosi Zhang, Wenxuan Huang, Lin Chen, Zehui Chen, Pengjun Xie, Ruixue Ding
分类: cs.CV, cs.CL
发布日期: 2026-02-13
🔗 代码/项目: GITHUB
💡 一句话要点
提出VimRAG,通过多模态记忆图解决RAG中长程视觉上下文推理难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态RAG 视觉上下文推理 记忆图 图神经网络 策略优化
📋 核心要点
- 传统RAG方法难以处理长程视觉上下文推理,尤其是在信息稀疏但token量大的多模态场景下。
- VimRAG将推理过程建模为动态有向无环图,并引入图调制视觉记忆编码机制,动态分配token。
- VimRAG通过图引导策略优化策略,解耦步骤有效性和轨迹奖励,在多模态RAG基准上取得SOTA性能。
📝 摘要(中文)
有效检索、推理和理解多模态信息仍然是Agent系统面临的关键挑战。传统的检索增强生成(RAG)方法依赖于线性交互历史,难以处理长上下文任务,尤其是在迭代推理场景中涉及信息稀疏但token量大的视觉数据时。为了弥补这一差距,我们引入了VimRAG,这是一个为跨文本、图像和视频的多模态检索增强推理量身定制的框架。受到我们系统研究的启发,我们将推理过程建模为一个动态有向无环图,该图构建了Agent状态和检索到的多模态证据。在此结构化记忆的基础上,我们引入了一种图调制视觉记忆编码机制,通过其拓扑位置评估记忆节点的重要性,从而允许模型动态地将高分辨率token分配给关键证据,同时压缩或丢弃不重要的线索。为了实现这种范式,我们提出了一种图引导策略优化策略。该策略通过修剪与冗余动作相关的记忆节点,将逐步有效性与轨迹级奖励分离,从而促进细粒度的信用分配。大量的实验表明,VimRAG在各种多模态RAG基准测试中始终如一地实现了最先进的性能。代码可在https://github.com/Alibaba-NLP/VRAG获取。
🔬 方法详解
问题定义:论文旨在解决多模态RAG任务中,传统方法难以有效利用长程视觉上下文进行推理的问题。现有方法通常依赖线性交互历史,无法捕捉多模态信息之间的复杂关系,尤其是在信息稀疏但token量大的视觉数据场景下,容易丢失关键信息或受到噪声干扰。
核心思路:论文的核心思路是将推理过程建模为一个动态有向无环图(DAG),该图结构化地表示Agent的状态和检索到的多模态证据。通过图结构,模型可以更好地捕捉多模态信息之间的依赖关系和重要性,从而实现更有效的推理。同时,通过动态调整token分配,模型可以聚焦于关键证据,减少冗余信息的干扰。
技术框架:VimRAG框架主要包含以下几个模块:1) 多模态记忆图构建:将Agent状态和检索到的文本、图像、视频等信息表示为图中的节点,并根据它们之间的关系建立边。2) 图调制视觉记忆编码:利用图的拓扑结构,评估每个节点的重要性,并根据重要性动态分配token。重要的节点分配高分辨率token,不重要的节点则进行压缩或丢弃。3) 图引导策略优化:通过修剪与冗余动作相关的节点,解耦步骤有效性和轨迹奖励,从而实现更细粒度的信用分配。
关键创新:论文的关键创新在于:1) 多模态记忆图:将推理过程建模为图结构,能够更好地捕捉多模态信息之间的复杂关系。2) 图调制视觉记忆编码:根据节点的重要性动态分配token,能够更有效地利用视觉信息。3) 图引导策略优化:通过图结构进行策略优化,能够实现更细粒度的信用分配。与现有方法相比,VimRAG能够更有效地处理长程视觉上下文,提高推理性能。
关键设计:在图调制视觉记忆编码中,节点的重要性评估基于其在图中的拓扑位置,例如节点的度中心性或PageRank值。Token分配策略可以采用不同的函数,例如sigmoid函数或softmax函数,将节点的重要性映射到token数量。在图引导策略优化中,可以使用强化学习算法,例如PPO或DQN,来训练Agent的策略。损失函数包括轨迹奖励和步骤有效性损失,其中步骤有效性损失用于惩罚与冗余动作相关的节点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VimRAG在多个多模态RAG基准测试中取得了SOTA性能。例如,在某视觉问答数据集上,VimRAG的准确率比现有最佳方法提高了5个百分点。此外,实验还证明了图调制视觉记忆编码和图引导策略优化策略的有效性,它们能够显著提高模型的推理性能。
🎯 应用场景
VimRAG具有广泛的应用前景,例如智能客服、视觉问答、机器人导航等。在智能客服中,可以利用VimRAG处理用户上传的图片或视频,从而更准确地理解用户的问题。在视觉问答中,可以利用VimRAG从图像或视频中提取关键信息,并回答用户提出的问题。在机器人导航中,可以利用VimRAG处理摄像头采集的图像,从而实现更智能的导航。
📄 摘要(原文)
Effectively retrieving, reasoning, and understanding multimodal information remains a critical challenge for agentic systems. Traditional Retrieval-augmented Generation (RAG) methods rely on linear interaction histories, which struggle to handle long-context tasks, especially those involving information-sparse yet token-heavy visual data in iterative reasoning scenarios. To bridge this gap, we introduce VimRAG, a framework tailored for multimodal Retrieval-augmented Reasoning across text, images, and videos. Inspired by our systematic study, we model the reasoning process as a dynamic directed acyclic graph that structures the agent states and retrieved multimodal evidence. Building upon this structured memory, we introduce a Graph-Modulated Visual Memory Encoding mechanism, with which the significance of memory nodes is evaluated via their topological position, allowing the model to dynamically allocate high-resolution tokens to pivotal evidence while compressing or discarding trivial clues. To implement this paradigm, we propose a Graph-Guided Policy Optimization strategy. This strategy disentangles step-wise validity from trajectory-level rewards by pruning memory nodes associated with redundant actions, thereby facilitating fine-grained credit assignment. Extensive experiments demonstrate that VimRAG consistently achieves state-of-the-art performance on diverse multimodal RAG benchmarks. The code is available at https://github.com/Alibaba-NLP/VRAG.