UniversalVTG: A Universal and Lightweight Foundation Model for Video Temporal Grounding
作者: Joungbin An, Agrim Jain, Kristen Grauman
分类: cs.CV
发布日期: 2026-04-09
备注: Project Page: https://vision.cs.utexas.edu/projects/universalvtg
💡 一句话要点
提出UniversalVTG,一种轻量级通用视频时序定位基础模型
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频时序定位 跨数据集学习 查询统一 轻量级模型 长视频理解
📋 核心要点
- 现有VTG模型泛化性差,且基于MLLM的方法计算成本高,难以处理长视频。
- UniversalVTG通过大规模跨数据集预训练和查询统一器,实现轻量级通用模型。
- 实验表明,UniversalVTG在多个数据集上达到SOTA,且模型尺寸远小于MLLM。
📝 摘要(中文)
视频时序定位(VTG)通常使用数据集特定的模型,这些模型在不同领域和查询风格之间的迁移效果较差。为了克服这一局限性,最近的研究尝试将大型多模态语言模型(MLLM)应用于VTG,但其高计算成本和有限的视频上下文仍然阻碍了长视频的定位。本文提出了一种在统一监督下扩展模型规模,同时保持模型轻量化的方法。我们提出了UniversalVTG,这是一个使用大规模跨数据集预训练的单一VTG模型。离线查询统一器将异构查询格式规范化为共享声明空间,减少了语言不匹配,并防止了朴素联合训练下观察到的负迁移。结合高效的定位头,UniversalVTG可以扩展到长的、未修剪的视频。在多个基准测试(GoalStep-StepGrounding、Ego4D-NLQ、TACoS、Charades-STA和ActivityNet-Captions)中,一个UniversalVTG检查点实现了优于专用VTG模型的state-of-the-art性能。此外,尽管比最近基于MLLM的方法小100倍以上,但UniversalVTG在多个基准测试中匹配或超过了它们的准确性,为参数繁重的MLLM提供了一种实用的替代方案。
🔬 方法详解
问题定义:视频时序定位旨在根据给定的文本查询,在视频中找到对应的时间片段。现有方法通常针对特定数据集训练模型,导致泛化能力差。最近基于大型多模态语言模型的方法虽然具有一定的泛化能力,但计算成本高昂,难以处理长视频,并且视频上下文理解能力有限。
核心思路:UniversalVTG的核心思路是利用大规模跨数据集预训练,学习通用的视频时序定位能力。通过引入查询统一器,将不同数据集的异构查询格式转换为统一的声明空间,从而减少语言不匹配,避免负迁移。同时,设计高效的定位头,降低计算复杂度,使其能够处理长视频。
技术框架:UniversalVTG包含三个主要模块:视频编码器、查询统一器和定位头。视频编码器负责提取视频特征;查询统一器将不同格式的文本查询转换为统一的表示;定位头根据视频特征和查询表示,预测视频中对应的时间片段。整个框架采用端到端的方式进行训练。
关键创新:UniversalVTG的关键创新在于:1) 大规模跨数据集预训练,提升模型的泛化能力;2) 查询统一器,解决异构查询格式带来的问题;3) 轻量级高效的定位头,降低计算复杂度,使其能够处理长视频。与现有方法相比,UniversalVTG在保证性能的同时,显著降低了模型尺寸和计算成本。
关键设计:查询统一器采用离线方式进行训练,将不同数据集的查询转换为统一的声明空间。定位头采用轻量级设计,例如使用简单的线性层或卷积层,以降低计算复杂度。损失函数采用常用的交叉熵损失或回归损失,用于优化时间片段的预测。
🖼️ 关键图片
📊 实验亮点
UniversalVTG在GoalStep-StepGrounding、Ego4D-NLQ、TACoS、Charades-STA和ActivityNet-Captions等多个数据集上取得了state-of-the-art的性能,并且模型尺寸比基于MLLM的方法小100倍以上,同时在多个基准测试中匹配或超过了它们的准确性。
🎯 应用场景
UniversalVTG可应用于视频检索、视频摘要、智能监控、人机交互等领域。例如,用户可以通过自然语言查询快速定位视频中的关键片段,或者系统可以自动提取视频中的重要事件。该研究成果有助于推动视频理解技术的发展,并为实际应用提供更高效、更便捷的解决方案。
📄 摘要(原文)
Video temporal grounding (VTG) is typically tackled with dataset-specific models that transfer poorly across domains and query styles. Recent efforts to overcome this limitation have adapted large multimodal language models (MLLMs) to VTG, but their high compute cost and limited video context still hinder long-video grounding. We instead scale unified supervision while keeping the model lightweight. We present UniversalVTG, a single VTG model trained with large-scale cross-dataset pretraining. An offline Query Unifier canonicalizes heterogeneous query formats into a shared declarative space, reducing linguistic mismatch and preventing the negative transfer observed under naïve joint training. Combined with an efficient grounding head, UniversalVTG scales to long, untrimmed videos. Across diverse benchmarks-GoalStep-StepGrounding, Ego4D-NLQ, TACoS, Charades-STA, and ActivityNet-Captions-one UniversalVTG checkpoint achieves state-of-the-art performance versus dedicated VTG models. Moreover, despite being $>100\times$ smaller than recent MLLM-based approaches, UniversalVTG matches or exceeds their accuracy on multiple benchmarks, offering a practical alternative to parameter-heavy MLLMs.