MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism
作者: Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen
分类: cs.CV, cs.AI, cs.CL
发布日期: 2026-06-05
💡 一句话要点
提出MemDreamer以解决长视频理解中的感知与推理问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 层次图记忆 主动检索 视觉语言模型 多模态理解
📋 核心要点
- 现有的视觉语言模型在处理长视频时,因标记数量激增和注意力稀释而面临显著挑战。
- MemDreamer通过解耦感知与推理,将长视频理解转变为主动探索过程,构建层次图记忆以实现语义抽象。
- 实验结果显示,MemDreamer在四个基准测试中达到了SOTA水平,准确率提升12.5分,缩小了与人类专家的差距。
📝 摘要(中文)
当前的视觉语言模型在处理数小时长的视频时面临挑战,因为完整视觉序列的处理会导致令人生畏的标记爆炸和注意力稀释。为了解决这一问题,我们提出了MemDreamer,通过解耦感知与推理,将长视频理解转变为一种主动探索过程。作为一个即插即用的框架,它逐步流式传输视频以构建层次图记忆,这是一个自上而下的三层架构,用于语义抽象,并由一个基础图捕捉时空和因果关系。在推理过程中,推理模型采用主动工具增强检索,通过观察-推理-行动循环导航层次、搜索节点和遍历逻辑边。实验表明,MemDreamer在四个主流基准上实现了SOTA结果,将与人类专家的差距缩小至仅3.7分,同时将推理上下文窗口限制在仅2%的全上下文摄取中,提供了12.5分的绝对准确性提升。此外,统计分析揭示了视觉语言模型在逻辑推理和长视频理解基准上的表现之间存在强正线性相关性,确立了主动能力扩展作为多模态理解的新范式。
🔬 方法详解
问题定义:论文旨在解决现有视觉语言模型在处理长视频时的标记爆炸和注意力稀释问题,这使得模型难以有效理解长时间的视频内容。
核心思路:MemDreamer通过解耦感知与推理,将长视频理解转化为一种主动探索过程,利用层次图记忆来进行语义抽象,从而提高理解效率。
技术框架:MemDreamer采用自上而下的三层架构,首先通过逐步流式传输视频构建层次图记忆,然后在推理阶段通过观察-推理-行动循环进行逻辑推理和信息检索。
关键创新:MemDreamer的主要创新在于引入了层次图记忆和主动工具增强检索机制,这与传统方法的全局上下文处理方式形成鲜明对比,显著提高了推理效率和准确性。
关键设计:在设计中,MemDreamer限制推理上下文窗口至全上下文的2%,并通过特定的损失函数和网络结构优化推理过程,确保在保持高效性的同时提升模型的准确性。
📊 实验亮点
MemDreamer在四个主流基准测试中实现了SOTA结果,准确率提升12.5分,且与人类专家的差距缩小至3.7分,展示了其在长视频理解中的显著优势。
🎯 应用场景
MemDreamer的研究成果可广泛应用于视频分析、智能监控、自动驾驶等领域,帮助系统更好地理解和处理长时间的视频数据。未来,该框架有望推动多模态理解的进一步发展,提升人机交互的智能化水平。
📄 摘要(原文)
Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token explosion and attention dilution. To overcome this, we introduce MemDreamer to decouple perception and reasoning, shifting long-video understanding into an agentic exploration process. As a plug-and-play framework, it incrementally streams videos to construct a Hierarchical Graph Memory, a top-down three-tier architecture for semantic abstraction, anchored by a foundational graph capturing spatiotemporal and causal relations. During inference, the reasoning model employs agentic tool-augmented retrieval, navigating hierarchies, searching nodes, and traversing logical edges via an Observation-Reason-Action loop. Experiments show MemDreamer achieves SOTA results across four mainstream benchmarks, narrowing the gap with human experts to only 3.7 points. It constrains the reasoning context window to merely 2% of full-context ingestion while delivering a 12.5 point absolute accuracy gain. Furthermore, statistical analysis uncovers a strong positive linear correlation between an VLM's performance on logic reasoning and long-video understanding benchmarks, establishing agentic capability scaling as a new paradigm for multimodal comprehension.