See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval

📄 arXiv: 2601.09350v1 📥 PDF

作者: Mingyu Jeon, Sungjin Han, Jinkwon Hwang, Minchol Kwon, Jonghee Kim, Junyeong Kim

分类: cs.CV

发布日期: 2026-01-14


💡 一句话要点

提出SMORE框架以解决视频时刻检索中的内存效率问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频时刻检索 内存效率 多模态学习 查询引导 重要性调制

📋 核心要点

  1. 现有视频时刻检索方法在处理长视频时面临内存限制,稀疏帧采样可能导致信息丢失。
  2. SMORE框架通过查询引导的字幕、查询感知的重要性调制和自适应帧压缩来提高内存效率。
  3. 实验结果显示,SMORE在多个基准测试中实现了最先进的性能,验证了其有效性。

📝 摘要(中文)

近年来,多模态大语言模型(MLLMs)的进展提升了图像识别和推理能力,但视频相关任务仍面临由于密集帧处理带来的内存限制。现有的视频时刻检索(VMR)方法依赖稀疏帧采样,可能导致信息丢失,尤其是在较长的视频中。我们提出了SMORE(See MORE, store less)框架,旨在提高内存效率,同时保持高信息分辨率。SMORE通过查询引导的字幕编码与用户意图对齐的语义,应用查询感知的重要性调制来突出相关片段,并自适应压缩帧以保留关键内容,减少冗余。这使得在不超出内存预算的情况下实现高效的视频理解。实验验证表明,SMORE在QVHighlights、Charades-STA和ActivityNet-Captions基准上达到了最先进的性能。

🔬 方法详解

问题定义:本论文旨在解决视频时刻检索中的内存效率问题。现有方法依赖稀疏帧采样,容易导致在长视频中信息的丢失,影响检索效果。

核心思路:SMORE框架通过引入查询引导的字幕和查询感知的重要性调制,确保在压缩视频帧的同时,保留与用户意图相关的关键信息。这样设计的目的是在内存预算内实现高效的视频理解。

技术框架:SMORE的整体架构包括三个主要模块:查询引导的字幕生成、查询感知的重要性调制和自适应帧压缩。首先,通过用户查询生成与之对齐的字幕;然后,利用重要性调制突出相关视频片段;最后,进行帧压缩以减少冗余。

关键创新:SMORE的核心创新在于其查询引导的字幕和重要性调制机制,这与传统的稀疏采样方法本质上不同,能够更有效地保留视频中的重要信息。

关键设计:在设计中,SMORE采用了自适应压缩策略,确保在压缩过程中保留关键内容,同时设置了特定的损失函数以优化信息的保留和冗余的减少。

📊 实验亮点

实验结果表明,SMORE在QVHighlights、Charades-STA和ActivityNet-Captions基准上达到了最先进的性能,相较于现有方法,性能提升显著,验证了其在视频时刻检索中的有效性和优越性。

🎯 应用场景

该研究的潜在应用场景包括视频监控、视频检索系统和内容推荐等领域。通过提高视频理解的效率,SMORE框架能够在资源受限的环境中实现更高效的检索和分析,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have improved image recognition and reasoning, but video-related tasks remain challenging due to memory constraints from dense frame processing. Existing Video Moment Retrieval (VMR) methodologies rely on sparse frame sampling, risking potential information loss, especially in lengthy videos. We propose SMORE (See MORE, store less), a framework that enhances memory efficiency while maintaining high information resolution. SMORE (1) uses query-guided captions to encode semantics aligned with user intent, (2) applies query-aware importance modulation to highlight relevant segments, and (3) adaptively compresses frames to preserve key content while reducing redundancy. This enables efficient video understanding without exceeding memory budgets. Experimental validation reveals that SMORE achieves state-of-the-art performance on QVHighlights, Charades-STA, and ActivityNet-Captions benchmarks.