Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
作者: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
分类: cs.CV
发布日期: 2025-09-18
期刊: NeurIPS2025
🔗 代码/项目: GITHUB
💡 一句话要点
利用多模态LLM进行零样本时空视频定位,提出DSTH和TAS策略。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时空视频定位 多模态LLM 零样本学习 视频理解 文本查询
📋 核心要点
- 现有STVG方法难以有效整合文本查询中的属性和动作信息,导致定位精度受限。
- 提出分解时空高亮(DSTH)和时间增强组装(TAS)策略,提升MLLM在STVG任务中的推理能力。
- 实验结果表明,该方法在多个STVG基准测试中超越了现有最佳方法,验证了其有效性。
📝 摘要(中文)
本文旨在利用多模态大型语言模型(MLLM)探索零样本时空视频定位(STVG)方法,即根据文本查询定位视频中的时空区域。研究揭示了MLLM的两个关键特性:一是MLLM倾向于动态分配特殊token(称为“grounding token”)来定位文本查询;二是MLLM由于无法充分整合文本查询中的线索(如属性、动作)进行推理,导致定位效果欠佳。基于此,本文提出了一种基于MLLM的零样本STVG框架,包含分解时空高亮(DSTH)和时间增强组装(TAS)策略,以释放MLLM的推理能力。DSTH策略首先将原始查询分解为属性和动作子查询,以在空间和时间上查询目标的存在性。然后,它使用一种新颖的logit引导重注意力(LRA)模块,通过正则化每个子查询的token预测,学习潜在变量作为空间和时间提示。这些提示分别突出显示属性和动作线索,引导模型关注可靠的空间和时间相关视觉区域。此外,由于属性子查询的空间定位应在时间上保持一致,因此我们引入了TAS策略,使用原始视频帧和时间增强帧作为输入来组装预测,以帮助提高时间一致性。我们在各种MLLM上评估了我们的方法,结果表明它在三个常见的STVG基准测试中优于SOTA方法。
🔬 方法详解
问题定义:时空视频定位(STVG)旨在根据给定的文本查询,在视频中定位对应的时空区域。现有方法通常难以充分利用文本查询中的所有信息,例如属性和动作,导致定位精度不高。此外,如何有效地利用多模态大型语言模型(MLLM)进行零样本STVG仍然是一个挑战。
核心思路:本文的核心思路是利用MLLM的强大推理能力,并通过解耦查询和引入时间一致性约束来提高定位精度。具体来说,将原始查询分解为属性和动作子查询,分别进行空间和时间上的定位,然后通过logit引导的重注意力机制来学习空间和时间提示,引导模型关注相关的视觉区域。同时,利用时间增强的帧来提高时间一致性。
技术框架:该框架主要包含两个核心模块:分解时空高亮(DSTH)和时间增强组装(TAS)。DSTH模块首先将原始文本查询分解为属性和动作两个子查询。然后,利用logit引导的重注意力(LRA)模块,学习空间和时间提示,以突出显示与属性和动作相关的视觉区域。TAS模块则利用原始视频帧和时间增强帧作为输入,组装DSTH模块的预测结果,以提高时间一致性。
关键创新:本文的关键创新在于提出了分解时空高亮(DSTH)策略和时间增强组装(TAS)策略。DSTH策略通过解耦查询,使得模型能够更好地关注属性和动作信息,从而提高定位精度。TAS策略则通过引入时间增强帧,提高了定位结果的时间一致性。与现有方法相比,该方法能够更有效地利用文本查询中的信息,并提高定位精度。
关键设计:Logit引导重注意力(LRA)模块是关键设计之一,它通过正则化每个子查询的token预测,学习潜在变量作为空间和时间提示。时间增强组装(TAS)策略中,时间增强帧的生成方式以及如何将其与原始帧进行融合也是关键设计。损失函数的设计也至关重要,需要能够有效地引导模型学习到准确的空间和时间提示。
🖼️ 关键图片
📊 实验亮点
该方法在三个常用的STVG基准测试数据集上进行了评估,实验结果表明,该方法在零样本设置下,显著优于现有的SOTA方法。具体性能提升数据需要在论文中查找,但摘要中明确指出优于SOTA。
🎯 应用场景
该研究成果可应用于视频监控、智能安防、人机交互等领域。例如,在视频监控中,可以根据文本描述快速定位特定事件发生的时间和地点。在人机交互中,可以根据用户的语音指令,在视频中找到用户感兴趣的目标。
📄 摘要(原文)
Spatio-temporal video grounding (STVG) aims at localizing the spatio-temporal tube of a video, as specified by the input text query. In this paper, we utilize multimodal large language models (MLLMs) to explore a zero-shot solution in STVG. We reveal two key insights about MLLMs: (1) MLLMs tend to dynamically assign special tokens, referred to as \textit{grounding tokens}, for grounding the text query; and (2) MLLMs often suffer from suboptimal grounding due to the inability to fully integrate the cues in the text query (\textit{e.g.}, attributes, actions) for inference. Based on these insights, we propose a MLLM-based zero-shot framework for STVG, which includes novel decomposed spatio-temporal highlighting (DSTH) and temporal-augmented assembling (TAS) strategies to unleash the reasoning ability of MLLMs. The DSTH strategy first decouples the original query into attribute and action sub-queries for inquiring the existence of the target both spatially and temporally. It then uses a novel logit-guided re-attention (LRA) module to learn latent variables as spatial and temporal prompts, by regularizing token predictions for each sub-query. These prompts highlight attribute and action cues, respectively, directing the model's attention to reliable spatial and temporal related visual regions. In addition, as the spatial grounding by the attribute sub-query should be temporally consistent, we introduce the TAS strategy to assemble the predictions using the original video frames and the temporal-augmented frames as inputs to help improve temporal consistency. We evaluate our method on various MLLMs, and show that it outperforms SOTA methods on three common STVG benchmarks. The code will be available at https://github.com/zaiquanyang/LLaVA_Next_STVG.