Bridging Time and Space: Decoupled Spatio-Temporal Alignment for Video Grounding
作者: Xuezhen Tu, Jingyu Wu, Fangyu Kang, Qingpeng Nong, Kaijin Zhang, Chaoyue Niu, Fan Wu
分类: cs.CV
发布日期: 2026-04-09
💡 一句话要点
提出Bridge-STG,解耦时空对齐,提升多模态大语言模型在视频定位任务中的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频定位 时空对齐 多模态大语言模型 语义桥接 解耦学习
📋 核心要点
- 现有MLLM在时空视频定位中,时空对齐相互纠缠,且存在大量冗余视觉token,导致定位精度不高。
- Bridge-STG通过解耦时空定位,并设计时空语义桥接机制,弥合时间MLLM和空间解码器之间的语义鸿沟。
- 实验表明,Bridge-STG在多个基准测试中取得了SOTA性能,并在VidSTG数据集上显著提升了平均m_vIoU。
📝 摘要(中文)
本文提出Bridge-STG框架,旨在解决多模态大语言模型(MLLM)在时空视频定位任务中面临的挑战。这些挑战包括:由同一自回归输出空间内耦合的异构子任务引起的纠缠时空对齐问题,以及目标对象在时间和空间上的稀疏性导致的双域视觉token冗余问题。Bridge-STG通过解耦时间和空间定位,同时保持语义连贯性来解决这些问题。该框架包含时空语义桥接(STSB)机制,利用显式时间对齐(ETA)将MLLM的时间推理上下文提炼为丰富的桥接查询,作为鲁棒的语义接口。此外,查询引导的空间定位(QGSL)模块利用这些查询驱动一个专门构建的空间解码器,通过多层交互查询和正/负帧采样,共同消除双域视觉token冗余。在多个基准测试上的实验表明,Bridge-STG在基于MLLM的方法中实现了最先进的性能。在VidSTG上,平均m_vIoU从26.4提高到34.3,并在统一的多任务训练方案下,展示了跨各种细粒度视频理解任务的强大跨任务迁移能力。
🔬 方法详解
问题定义:现有的多模态大语言模型在进行时空视频定位时,面临两个主要问题。一是时空对齐相互纠缠,即时间定位和空间定位耦合在同一个自回归输出空间中,导致优化困难。二是存在双域视觉token冗余,目标物体在时间和空间上都具有稀疏性,使得大部分视觉token与定位查询无关,增加了计算负担并降低了定位精度。
核心思路:Bridge-STG的核心思路是解耦时间和空间定位任务,将复杂的时空定位问题分解为两个相对独立的子任务,从而简化模型学习过程。为了弥合解耦带来的语义鸿沟,引入了时空语义桥接机制,将时间维度的语义信息传递给空间解码器,保证了整体语义的连贯性。
技术框架:Bridge-STG框架主要包含三个模块:时间MLLM、时空语义桥接(STSB)和查询引导的空间定位(QGSL)。首先,时间MLLM负责对视频和文本查询进行时间维度的理解和推理。然后,STSB模块利用显式时间对齐(ETA)机制,将时间MLLM的输出提炼成桥接查询,作为时间语义信息的载体。最后,QGSL模块利用这些桥接查询,驱动一个专门设计的空间解码器,进行空间定位。
关键创新:Bridge-STG的关键创新在于解耦时空定位任务,并通过时空语义桥接机制弥合解耦带来的语义鸿沟。与现有方法相比,Bridge-STG避免了时空对齐的相互干扰,能够更有效地利用视觉信息,提高定位精度。此外,QGSL模块通过多层交互查询和正/负帧采样,有效减少了双域视觉token冗余。
关键设计:STSB模块中的显式时间对齐(ETA)机制,通过学习时间对齐权重,将时间MLLM的输出与桥接查询进行对齐,从而保证了时间语义信息的准确传递。QGSL模块采用多层交互查询,逐步细化空间定位结果。同时,QGSL模块还采用了正/负帧采样策略,选择与查询相关的帧进行空间定位,减少了计算量并提高了定位精度。
🖼️ 关键图片
📊 实验亮点
Bridge-STG在VidSTG数据集上取得了显著的性能提升,平均m_vIoU从26.4%提高到34.3%,超越了现有的基于MLLM的方法。此外,该模型在多个细粒度视频理解任务上展示了强大的跨任务迁移能力,证明了其通用性和有效性。实验结果表明,解耦时空定位和时空语义桥接机制能够有效提高视频定位的精度和效率。
🎯 应用场景
Bridge-STG在视频监控、自动驾驶、人机交互等领域具有广泛的应用前景。例如,在视频监控中,可以根据自然语言描述快速定位特定事件或目标。在自动驾驶中,可以帮助车辆理解周围环境,并根据指令执行相应的操作。在人机交互中,可以实现更自然、更智能的视频内容交互。
📄 摘要(原文)
Spatio-Temporal Video Grounding requires jointly localizing target objects across both temporal and spatial dimensions based on natural language queries, posing fundamental challenges for existing Multimodal Large Language Models (MLLMs). We identify two core challenges: \textit{entangled spatio-temporal alignment}, arising from coupling two heterogeneous sub-tasks within the same autoregressive output space, and \textit{dual-domain visual token redundancy}, where target objects exhibit simultaneous temporal and spatial sparsity, rendering the overwhelming majority of visual tokens irrelevant to the grounding query. To address these, we propose \textbf{Bridge-STG}, an end-to-end framework that decouples temporal and spatial localization while maintaining semantic coherence. While decoupling is the natural solution to this entanglement, it risks creating a semantic gap between the temporal MLLM and the spatial decoder. Bridge-STG resolves this through two pivotal designs: the \textbf{Spatio-Temporal Semantic Bridging (STSB)} mechanism with Explicit Temporal Alignment (ETA) distills the MLLM's temporal reasoning context into enriched bridging queries as a robust semantic interface; and the \textbf{Query-Guided Spatial Localization (QGSL)} module leverages these queries to drive a purpose-built spatial decoder with multi-layer interactive queries and positive/negative frame sampling, jointly eliminating dual-domain visual token redundancy. Extensive experiments across multiple benchmarks demonstrate that Bridge-STG achieves state-of-the-art performance among MLLM-based methods. Bridge-STG improves average m_vIoU from $26.4$ to $34.3$ on VidSTG and demonstrates strong cross-task transfer across various fine-grained video understanding tasks under a unified multi-task training regime.