Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding
作者: Sosuke Yamao, Natsuki Miyahara, Yuankai Qi, Shun Takeuchi
分类: cs.CV
发布日期: 2026-03-16
备注: Accepted to CVPR 2026. The first two authors contributed equally to this work
💡 一句话要点
提出QViC-MF框架,利用记忆反馈提升长视频理解中时序事件的建模能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长视频理解 记忆反馈 视觉压缩 多模态注意力 时序建模 视频理解 事件理解
📋 核心要点
- 现有基于Transformer的视频压缩和记忆增强方法在处理长视频时,忽略了对完整事件的理解,尤其是在时序关系建模方面。
- 论文提出QViC-MF框架,核心思想是建立从记忆到感知的反馈机制,利用过去视觉上下文辅助当前帧的压缩,从而更好地理解视频内容。
- 实验表明,QViC-MF在多个长视频理解任务上取得了显著的性能提升,证明了其有效性,尤其是在时序推理任务上。
📝 摘要(中文)
本文提出了一种名为Question-guided Visual Compression with Memory Feedback (QViC-MF)的框架,用于长视频理解。现有方法通常独立压缩视频帧,难以有效理解需要完整事件信息的任务,如MLVU和VNBench中的时序排序任务。QViC-MF通过建立一个反馈驱动的过程,使存储在上下文记忆中的过去视觉信息能够帮助当前的感知。其核心是Question-guided Multimodal Selective Attention (QMSA),它学习从当前片段和记忆中相关的过去帧中,保留与给定问题相关的视觉信息。压缩器和记忆反馈为整个视频的每个片段迭代工作。实验结果表明,该方法在长视频理解任务上显著优于当前最先进的方法,在MLVU测试集上提升6.1%,在LVBench上提升8.3%,在VNBench Long上提升18.3%,在VideoMME Long上提升3.7%。代码将公开发布。
🔬 方法详解
问题定义:现有长视频理解方法,特别是基于Transformer的视觉压缩和记忆增强方法,通常独立处理每一帧,忽略了视频中事件的时序关系。这导致在需要理解完整事件的任务(如时序排序)上表现不佳。现有方法的痛点在于缺乏对过去信息的有效利用,无法建立视频帧之间的上下文联系。
核心思路:论文的核心思路是建立一个记忆反馈机制,让过去的视觉上下文能够指导当前的视觉压缩。通过这种方式,模型可以有选择性地保留与当前任务相关的历史信息,从而更好地理解视频中的事件和时序关系。这种反馈机制模拟了人类在理解视频时,会不断回顾和利用过去信息的认知过程。
技术框架:QViC-MF框架包含视觉压缩器、记忆模块和Question-guided Multimodal Selective Attention (QMSA)模块。对于视频的每个片段,首先使用QMSA从当前片段和记忆模块中选择与问题相关的视觉信息,然后通过视觉压缩器进行压缩。压缩后的信息被存储到记忆模块中,用于后续片段的理解。这个过程迭代进行,直到处理完整个视频。
关键创新:最重要的技术创新点是Question-guided Multimodal Selective Attention (QMSA)模块。QMSA能够根据给定的问题,从当前片段和记忆模块中选择相关的视觉信息。这与传统的独立帧压缩方法不同,QMSA考虑了问题和历史上下文,从而能够更有效地保留关键信息。
关键设计:QMSA模块的具体实现细节未知,但可以推测其可能采用了注意力机制,根据问题和历史信息计算每个视觉特征的重要性,并选择性地保留重要的特征。损失函数的设计也至关重要,可能包含重构损失(保证压缩后的信息能够重构原始视频)和任务相关的损失(例如,时序排序损失,鼓励模型学习时序关系)。具体的网络结构和参数设置在论文中应该有详细描述,但根据摘要无法得知。
🖼️ 关键图片
📊 实验亮点
QViC-MF在多个长视频理解任务上取得了显著的性能提升。在MLVU测试集上,QViC-MF的性能提升了6.1%。在LVBench上,性能提升了8.3%。在VNBench Long上,性能提升高达18.3%。在VideoMME Long上,性能提升了3.7%。这些结果表明,QViC-MF能够有效地利用记忆反馈机制,提升长视频理解能力。
🎯 应用场景
该研究成果可应用于智能监控、视频检索、自动驾驶等领域。例如,在智能监控中,可以利用该方法压缩和理解长时间的监控视频,从而快速定位异常事件。在视频检索中,可以根据用户提出的问题,从海量视频中检索出相关的片段。在自动驾驶中,可以帮助车辆理解复杂的交通场景,做出更安全的决策。
📄 摘要(原文)
In the context of long-term video understanding with large multimodal models, many frameworks have been proposed. Although transformer-based visual compressors and memory-augmented approaches are often used to process long videos, they usually compress each frame independently and therefore fail to achieve strong performance on tasks that require understanding complete events, such as temporal ordering tasks in MLVU and VNBench. This motivates us to rethink the conventional one-way scheme from perception to memory, and instead establish a feedbackdriven process in which past visual contexts stored in the context memory can benefit ongoing perception. To this end, we propose Question-guided Visual Compression with Memory Feedback (QViC-MF), a framework for long-term video understanding. At its core is a Question-guided Multimodal Selective Attention (QMSA), which learns to preserve visual information related to the given question from both the current clip and the past related frames from the memory. The compressor and memory feedback work iteratively for each clip of the entire video. This simple yet effective design yields large performance gains on longterm video understanding tasks. Extensive experiments show that our method achieves significant improvement over current state-of-the-art methods by 6.1% on MLVU test, 8.3% on LVBench, 18.3% on VNBench Long, and 3.7% on VideoMME Long. The code will be released publicly.