1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning

📄 arXiv: 2512.06673v1 📥 PDF

作者: Shida Gao, Feng Xue, Xiangfeng Wang, Anlong Ming, Teng Long, Yihua Shao, Haozhe Wang, Zhaowen Lin, Wei Wang, Nicu Sebe

分类: cs.CV

发布日期: 2025-12-07

🔗 代码/项目: GITHUB


💡 一句话要点

提出DEViL:一种结合开放词汇检测器的视频大语言模型,用于时空定位与推理。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时空定位 开放词汇检测 多模态学习 视频理解 指代理解 时间正则化

📋 核心要点

  1. 现有MLLM自回归生成边界框导致输出序列过长,空间误差随时间累积,定位结果漂移。
  2. DEViL通过参考语义token(RST)连接MLLM和开放词汇检测器,实现指代理解和空间定位的端到端学习。
  3. 提出的tube-mined时间正则化(TTReg)驱动检测器生成时间一致的查询,提升时间关联性,实验效果显著。

📝 摘要(中文)

时空定位与推理旨在根据用户查询,定位视频中事件的时间片段和空间区域,并推理因果关系、时间顺序和动作关系等语义信息。目前的多模态大语言模型(MLLM)主要将边界框视为文本token并自回归地生成它们。然而,这种自回归空间解码会导致非常长的输出序列,造成空间误差随时间累积,定位结果在视频中逐渐漂移。为了解决这个问题,我们提出了一个Detector-Empowered Video LLM,简称DEViL,它将视频LLM与开放词汇检测器(OVD)相结合。具体来说,MLLM和检测器通过参考语义token(RST)连接,该token将用户查询提炼成丰富的语义表示。与仅作为空间提示或分割器开关的token不同,RST既充当控制信号,又替代OVD的文本嵌入,从而实现指代理解和空间定位的端到端学习。此外,我们在OVD中提出了一种tube-mined时间正则化(TTReg),它驱动OVD为目标对象生成时间上一致的查询,从而确保有效的时间关联。实验表明,DEViL在各种细粒度视频理解任务(特别是STVG和GroundedVQA)上取得了强大的性能。代码将在https://github.com/gaostar123/DeViL上发布。

🔬 方法详解

问题定义:论文旨在解决视频时空定位与推理问题,即根据用户查询在视频中定位事件的时间片段和空间区域,并进行语义推理。现有方法主要依赖MLLM自回归生成边界框,但这种方式会产生过长的输出序列,导致空间误差累积,定位结果随时间漂移,影响定位精度和推理效果。

核心思路:论文的核心思路是将视频LLM与开放词汇检测器(OVD)相结合,利用OVD强大的空间定位能力来辅助LLM进行时空定位。通过引入参考语义token(RST),将用户查询信息融入到OVD中,实现LLM对OVD的有效控制,从而避免了自回归生成边界框带来的问题。

技术框架:DEViL的整体架构包含三个主要模块:视频LLM、开放词汇检测器(OVD)和参考语义token(RST)。首先,视频LLM处理视频帧和用户查询,生成初步的语义表示。然后,RST将用户查询提炼成一个语义向量,作为OVD的控制信号和文本嵌入的替代。OVD根据RST生成目标对象的边界框。最后,LLM结合OVD的输出进行时空推理。

关键创新:论文的关键创新在于引入了参考语义token(RST),它不仅作为OVD的控制信号,还替代了OVD的文本嵌入,实现了指代理解和空间定位的端到端学习。此外,提出的tube-mined时间正则化(TTReg)能够驱动OVD生成时间一致的查询,从而提升时间关联性。与现有方法中仅将token作为空间提示或分割器开关不同,RST具有更强的语义表达能力和控制能力。

关键设计:RST的设计至关重要,它需要能够有效地将用户查询信息传递给OVD。TTReg通过挖掘视频中的tubelet,并约束相邻帧中相同对象的检测结果,从而实现时间一致性。损失函数方面,论文可能采用了交叉熵损失、IoU损失等来优化OVD的检测性能,并可能设计了专门的损失函数来约束RST的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DEViL在STVG和GroundedVQA等细粒度视频理解任务上取得了显著的性能提升。具体数据需要在论文中查找,但摘要表明DEViL在这些任务上达到了state-of-the-art的水平。提出的RST和TTReg是性能提升的关键因素,它们有效地解决了现有方法中存在的空间误差累积和时间关联性不足的问题。

🎯 应用场景

DEViL具有广泛的应用前景,例如智能视频监控、视频内容分析、人机交互、自动驾驶等领域。它可以用于识别视频中的特定对象、事件和行为,并进行语义推理,从而实现更高级别的视频理解和应用。例如,在智能监控中,DEViL可以用于自动检测异常行为并发出警报。在自动驾驶中,它可以用于识别交通标志、行人和其他车辆,从而提高驾驶安全性。

📄 摘要(原文)

Spatio-temporal grounding and reasoning aims to locate the temporal segment and spatial region of an event in a video given a user query, while also reasoning about semantics such as causality, temporal order, and action relationships. To achieve this, current MLLMs primarily treats bounding boxes as text tokens and generates them autoregressively. However, such autoregressive spatial decoding leads to very-long output sequences, causing spatial errors to accumulated over time and the localization results to progressively drift across a video. To address this, we present a Detector-Empowered Video LLM, short for DEViL, which couples a Video LLM with an open-vocabulary detector (OVD). Specifically, the MLLM and detector are connected via a reference-semantic token (RST) that distills the user query into a rich semantic representation. Unlike tokens that merely serve as spatial prompts or segmentor switches, the RST functions as both a control signal and a replacement for the OVD's text embedding, enabling end-to-end learning of both referential understanding and spatial localization. Furthermore, we propose a tube-mined temporal regularization (TTReg) within OVD, which drives the OVD to generate temporally-consistent queries for target objects, thereby ensuring effective temporal association. Experiments demonstrate that DEViL achieves strong performance across various fine-grained video understanding tasks, particularly STVG and GroundedVQA. Code will be released on https://github.com/gaostar123/DeViL.