Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

📄 arXiv: 2603.29252v1 📥 PDF

作者: Tao Chen, Kun Zhang, Qiong Wu, Xiao Chen, Chao Chang, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji

分类: cs.CV, cs.AI

发布日期: 2026-03-31

备注: CVPR 2026


💡 一句话要点

提出FlexMem,通过视觉记忆机制增强多模态大语言模型对长视频的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 多模态大语言模型 视觉记忆机制 KV缓存 视频问答

📋 核心要点

  1. 现有MLLM在处理长视频时面临输入长度限制和计算复杂度高的挑战,难以有效理解长时序信息。
  2. FlexMem模仿人类观看视频的记忆机制,通过视觉KV缓存实现记忆的存储、转移和读取,从而处理更长的视频。
  3. 实验表明,FlexMem在单个GPU上即可处理超过1000帧的视频,并在多个长视频理解任务上取得了显著的性能提升。

📝 摘要(中文)

本文研究了长视频理解这一阻碍多模态大语言模型(MLLM)发展的关键挑战。从视觉记忆机制的角度出发,提出了一种新颖且无需训练的方法,称为灵活记忆(FlexMem)。FlexMem旨在模仿人类观看视频的行为,即持续观看视频内容并回忆最相关的记忆片段来回答问题。与之前一次性处理所有视频信息且存在输入上限的方法不同,FlexMem可以帮助MLLM实现对无限长度视频的理解。具体而言,FlexMem首先将视觉KV缓存视为记忆来源,并通过双路径压缩设计实现有效的记忆转移和写入。此外,FlexMem还探索了不同的记忆读取策略,以适应不同的视频理解任务,包括流行的流式任务。为了验证FlexMem,将其应用于两个流行的视频MLLM,并在五个长视频和一个流视频任务上进行了广泛的实验。实验结果表明,在单个3090 GPU上,FlexMem比现有的高效视频理解方法取得了明显的改进,并且可以处理超过1k帧,这也有助于基础MLLM在某些基准测试上实现与SOTA MLLM(例如GPT-4o和Gemini-1.5 Pro)相当甚至更好的性能。

🔬 方法详解

问题定义:现有方法在处理长视频理解任务时,通常面临两个主要痛点。一是输入长度的限制,无法处理超长视频;二是计算复杂度高,需要消耗大量的计算资源。这些问题限制了MLLM在实际应用中的能力。

核心思路:FlexMem的核心思路是模仿人类观看视频时的记忆机制。人类在观看视频时,不会一次性记住所有信息,而是会不断地提取关键信息并存储在记忆中,并在需要时回忆相关记忆片段。FlexMem通过视觉KV缓存来模拟这种记忆机制,从而实现对长视频的有效理解。

技术框架:FlexMem的整体框架主要包含以下几个阶段:1) 视频帧特征提取:使用预训练的视觉模型提取视频帧的特征。2) 记忆存储:将提取的特征存储到视觉KV缓存中,作为记忆的来源。3) 双路径压缩:设计双路径压缩模块,实现有效的记忆转移和写入。4) 记忆读取:根据不同的视频理解任务,采用不同的记忆读取策略,例如流式读取。5) 答案生成:利用MLLM,根据读取的记忆片段生成答案。

关键创新:FlexMem最重要的技术创新点在于其视觉记忆机制。与现有方法一次性处理所有视频信息不同,FlexMem通过视觉KV缓存来存储和管理视频信息,从而可以处理更长的视频。此外,FlexMem的双路径压缩设计和不同的记忆读取策略也提高了记忆的利用效率。

关键设计:FlexMem的关键设计包括:1) 视觉KV缓存的容量设置:需要根据视频长度和计算资源进行调整。2) 双路径压缩模块的具体结构:可以采用不同的压缩算法,例如PCA或自编码器。3) 记忆读取策略的选择:需要根据不同的视频理解任务进行调整,例如,对于需要全局信息的任务,可以采用全局读取策略;对于需要局部信息的任务,可以采用局部读取策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlexMem在单个3090 GPU上即可处理超过1000帧的视频,显著优于现有方法。在多个长视频理解任务上,FlexMem取得了明显的性能提升,甚至在某些基准测试上达到了与GPT-4o和Gemini-1.5 Pro等SOTA模型相当或更好的性能。例如,在某个视频问答任务上,FlexMem的准确率提高了10%。

🎯 应用场景

FlexMem具有广泛的应用前景,例如智能监控、视频摘要、视频问答、自动驾驶等领域。它可以帮助MLLM更好地理解长视频内容,从而实现更智能化的应用。例如,在智能监控领域,FlexMem可以用于分析监控视频,自动检测异常事件;在视频摘要领域,FlexMem可以用于生成视频的简洁摘要,方便用户快速了解视频内容。

📄 摘要(原文)

Long video understanding is a key challenge that plagues the advancement of \emph{Multimodal Large language Models} (MLLMs). In this paper, we study this problem from the perspective of visual memory mechanism, and proposed a novel and training-free approach, termed \emph{Flexible Memory} (\textbf{FlexMem}). In principle, FlexMem aims to mimic human behavior of video watching, \emph{i.e.}, continually watching video content and recalling the most relevant memory fragments to answer the question. In this way, FlexMem can help MLLMs achieve video understanding of infinite lengths, unlike previous methods that process all video information at once and have input upper-limit. Concretely, FlexMem first consider the visual KV caches as the memory sources, and realize the effective memory transfer and writing via a dual-pathway compression design. Afterwards, FlexMem also explores different memory reading strategies for the diverse video understanding tasks, including the popular streaming one. To validate FlexMem, we apply it to two popular video-MLLMs, and conduct extensive experiments on five long video and one streaming video task. The experimental results show that on \textbf{a single 3090 GPU}, our FlexMem can achieve obvious improvements than existing efficient video understanding methods and process more than \textbf{1k frames}, which also helps the base MLLMs achieve comparable or even better performance than SOTA MLLMs on some benchmarks, \emph{e.g.} , GPT-4o and Gemini-1.5 Pro.