WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

📄 arXiv: 2512.02425v1 📥 PDF

作者: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang

分类: cs.CV, cs.AI, cs.CL, cs.IR, cs.LG

发布日期: 2025-12-02

备注: Project page : https://worldmm.github.io


💡 一句话要点

提出WorldMM:动态多模态记忆代理,用于长视频推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态记忆 自适应检索 视频问答 视觉推理

📋 核心要点

  1. 现有方法在长视频理解中依赖文本摘要,忽略了视觉信息,且时间尺度固定,限制了对不同时长事件的捕捉。
  2. WorldMM构建多模态记忆,包括情景、语义和视觉记忆,并使用自适应检索代理选择最相关的记忆源。
  3. 实验结果表明,WorldMM在长视频问答任务中显著优于现有方法,平均性能提升8.4%。

📝 摘要(中文)

视频大语言模型在理解短视频片段方面表现出强大的能力。然而,由于有限的上下文容量和抽象过程中关键视觉细节的丢失,将其扩展到数小时或数天的长视频仍然具有挑战性。现有的记忆增强方法通过利用视频片段的文本摘要来缓解这个问题,但在复杂场景推理时,它们严重依赖文本,无法利用视觉证据。此外,从固定的时间尺度检索进一步限制了它们在捕获跨越不同持续时间的事件方面的灵活性。为了解决这个问题,我们引入了WorldMM,一种新型的多模态记忆代理,它构建并从多个互补的记忆中检索,包括文本和视觉表示。WorldMM包含三种类型的记忆:情景记忆索引跨多个时间尺度的事件,语义记忆持续更新高层次的概念知识,视觉记忆保留关于场景的详细信息。在推理过程中,自适应检索代理迭代地选择最相关的记忆源,并根据查询利用多个时间粒度,直到它确定已经收集到足够的信息。WorldMM在五个长视频问答基准测试中显著优于现有的基线,与之前的最先进方法相比,平均性能提升了8.4%,展示了其在长视频推理方面的有效性。

🔬 方法详解

问题定义:现有长视频理解方法主要依赖于文本摘要,忽略了视频中的视觉信息,导致在复杂场景推理时性能下降。此外,现有方法通常使用固定的时间尺度进行检索,无法灵活地处理不同时间跨度的事件。这些问题限制了模型在长视频理解任务中的表现。

核心思路:WorldMM的核心思路是构建一个多模态记忆代理,该代理能够同时利用文本和视觉信息进行推理。通过构建情景记忆、语义记忆和视觉记忆三种不同类型的记忆,模型可以从不同的角度理解视频内容。自适应检索代理能够根据查询动态地选择最相关的记忆源,并利用多个时间粒度进行推理,从而提高模型的灵活性和准确性。

技术框架:WorldMM的整体框架包括三个主要模块:记忆构建模块、自适应检索模块和推理模块。记忆构建模块负责构建情景记忆、语义记忆和视觉记忆。情景记忆索引跨多个时间尺度的事件,语义记忆持续更新高层次的概念知识,视觉记忆保留关于场景的详细信息。自适应检索模块根据查询选择最相关的记忆源,并利用多个时间粒度进行检索。推理模块利用检索到的信息进行推理,并生成最终的答案。

关键创新:WorldMM的关键创新在于其多模态记忆结构和自适应检索机制。与现有方法相比,WorldMM能够同时利用文本和视觉信息进行推理,从而提高模型的准确性。此外,自适应检索机制能够根据查询动态地选择最相关的记忆源,并利用多个时间粒度进行检索,从而提高模型的灵活性。

关键设计:WorldMM的关键设计包括:1) 使用不同的编码器来处理文本和视觉信息,以确保能够有效地提取不同模态的特征。2) 使用多层感知机(MLP)来实现自适应检索代理,该代理能够根据查询动态地选择最相关的记忆源。3) 使用交叉注意力机制来实现推理模块,该模块能够有效地融合检索到的信息并生成最终的答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WorldMM在五个长视频问答基准测试中取得了显著的性能提升,平均性能提升了8.4%,超过了之前的最先进方法。具体而言,在某些基准测试中,WorldMM的性能提升甚至超过了10%。这些实验结果表明,WorldMM在长视频推理方面具有显著的优势。

🎯 应用场景

WorldMM具有广泛的应用前景,例如视频监控、自动驾驶、智能家居等领域。在视频监控中,WorldMM可以用于分析长时间的监控录像,检测异常事件。在自动驾驶中,WorldMM可以用于理解复杂的交通场景,提高驾驶安全性。在智能家居中,WorldMM可以用于理解用户的行为,提供个性化的服务。该研究的未来影响在于推动长视频理解技术的发展,为各种应用场景提供更强大的支持。

📄 摘要(原文)

Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.