Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding

📄 arXiv: 2603.22121v1 📥 PDF

作者: Yunzhuo Sun, Xinyue Liu, Yanyang Li, Nanding Wu, Yifang Xu, Linlin Zong, Xianchao Zhang, Wenxin Liang

分类: cs.CV, cs.AI

发布日期: 2026-03-23

备注: The paper is accepted by CVPR-2026


💡 一句话要点

Mamba-VMR:通过生成视频增强多模态查询,实现精确时序定位

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频片段检索 多模态融合 文本到视频生成 时序定位 Mamba网络

📋 核心要点

  1. 现有VMR方法难以有效捕捉长视频中的时序动态,导致定位精度不足,且Transformer架构计算成本高昂。
  2. 论文提出利用LLM和文本到视频模型生成辅助视频,捕捉运动信息作为时序先验,增强查询。
  3. 实验表明,该方法在TVR基准上显著提升了VMR性能,降低了计算开销,尤其在长序列定位方面。

📝 摘要(中文)

本文针对文本驱动的视频片段检索(VMR)中,由于未裁剪视频中隐藏时序动态信息捕获不足,导致长序列中定位不精确的问题,提出了一种新颖的两阶段框架以增强时序定位。第一阶段,利用LLM引导的字幕匹配,从视频字幕中识别相关文本线索,并与查询融合,通过文本到视频模型生成辅助短视频,捕捉隐式的运动信息作为时序先验。第二阶段,通过多模态控制的Mamba网络处理增强后的查询,利用视频引导的门控机制扩展文本控制选择,高效融合生成的先验知识和长序列,同时过滤噪声。该框架与基础检索模型无关,可广泛应用于多模态VMR。在TVR基准上的实验评估表明,该方法优于最先进的方法,包括降低计算开销和提高长序列定位的召回率。

🔬 方法详解

问题定义:文本驱动的视频片段检索(VMR)旨在根据给定的文本查询,在未裁剪的长视频中定位到对应的片段。现有方法主要依赖自然语言查询或静态图像增强,忽略了视频中的运动序列,并且基于Transformer的架构计算成本高昂。此外,现有方法未能有效整合字幕上下文和生成的时序先验知识,导致定位精度不足,尤其是在长视频序列中。

核心思路:论文的核心思路是通过生成辅助视频来增强查询,从而更好地捕捉视频中的时序动态信息。具体来说,利用LLM和文本到视频模型,根据查询和视频字幕生成包含运动信息的短视频,作为时序先验知识,辅助VMR模型进行更精确的定位。这种方法旨在弥补传统方法对运动信息利用不足的缺陷,并降低计算复杂度。

技术框架:该框架包含两个主要阶段:1) 查询增强阶段:首先,利用LLM引导的字幕匹配,从视频字幕中提取与查询相关的文本线索。然后,将这些线索与原始查询融合,输入到文本到视频模型中,生成辅助短视频。这些短视频包含了隐式的运动信息,作为时序先验。2) 多模态融合与检索阶段:将增强后的查询(包括原始查询和生成的辅助视频)输入到多模态控制的Mamba网络中。Mamba网络利用视频引导的门控机制,高效地融合生成的先验知识和长视频序列,同时过滤噪声,最终实现精确的时序定位。

关键创新:该论文的关键创新在于:1) 利用生成视频进行查询增强:通过文本到视频模型生成包含运动信息的辅助视频,弥补了传统方法对运动信息利用不足的缺陷。2) 多模态控制的Mamba网络:使用Mamba网络高效地融合多模态信息(文本和视频),并利用视频引导的门控机制过滤噪声,降低了计算复杂度。

关键设计:1) LLM引导的字幕匹配:使用LLM从视频字幕中提取与查询相关的文本线索,提高了生成视频的质量。2) 文本到视频模型:选择合适的文本到视频模型,生成高质量的辅助短视频,捕捉运动信息。3) 多模态控制的Mamba网络:设计合适的Mamba网络结构,实现高效的多模态信息融合和噪声过滤。具体参数设置和损失函数等细节未在摘要中明确提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在TVR基准上取得了显著的性能提升,优于现有的最先进方法。具体而言,该方法在长序列定位方面表现出色,提高了召回率,并且降低了计算开销。具体的性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于视频内容理解、智能视频监控、视频搜索和推荐等领域。通过提升视频片段检索的精度和效率,可以帮助用户更快速地找到感兴趣的视频内容,提高视频分析和处理的智能化水平。未来,该方法有望应用于更复杂的视频场景,例如自动驾驶、机器人导航等。

📄 摘要(原文)

Text-driven video moment retrieval (VMR) remains challenging due to limited capture of hidden temporal dynamics in untrimmed videos, leading to imprecise grounding in long sequences. Traditional methods rely on natural language queries (NLQs) or static image augmentations, overlooking motion sequences and suffering from high computational costs in Transformer-based architectures. Existing approaches fail to integrate subtitle contexts and generated temporal priors effectively, we therefore propose a novel two-stage framework for enhanced temporal grounding. In the first stage, LLM-guided subtitle matching identifies relevant textual cues from video subtitles, fused with the query to generate auxiliary short videos via text-to-video models, capturing implicit motion information as temporal priors. In the second stage, augmented queries are processed through a multi-modal controlled Mamba network, extending text-controlled selection with video-guided gating for efficient fusion of generated priors and long sequences while filtering noise. Our framework is agnostic to base retrieval models and widely applicable for multimodal VMR. Experimental evaluations on the TVR benchmark demonstrate significant improvements over state-of-the-art methods, including reduced computational overhead and higher recall in long-sequence grounding.