OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

📄 arXiv: 2604.25276v1 📥 PDF

作者: Minghang Zheng, Zihao Yin, Yi Yang, Yuxin Peng, Yang Liu

分类: cs.CV

发布日期: 2026-04-28

备注: CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出OmniVTG数据集和自校正CoT训练范式,提升开放世界视频时序定位性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频时序定位 开放世界 多模态学习 大型语言模型 链式思考 自校正 数据集构建

📋 核心要点

  1. 现有视频时序定位方法在开放世界场景中,受限于数据集规模和语义多样性,对罕见概念的定位效果不佳。
  2. 论文提出OmniVTG数据集和自校正CoT训练范式,利用MLLM的视频理解能力来反思和改进自身的定位预测。
  3. 实验表明,该方法在OmniVTG数据集上表现出色,并在四个现有VTG基准测试中实现了SOTA零样本性能。

📝 摘要(中文)

视频时序定位(VTG)旨在根据文本查询定位视频片段,但在开放世界场景中,由于数据集规模和语义多样性的限制,常见概念和罕见概念之间存在性能差距。为了克服这些限制,我们引入了OmniVTG,这是一个新的大规模开放世界VTG数据集,并结合了一种自校正链式思考(CoT)训练范式,旨在增强多模态大型语言模型(MLLM)的定位能力。我们的OmniVTG通过一种新颖的语义覆盖迭代扩展流程构建,该流程首先识别现有数据集词汇表中的差距,并收集极有可能包含这些目标概念的视频。为了获得高质量的标注,我们利用了现代MLLM在密集字幕生成方面优于直接定位的优势,并设计了一个以字幕为中心的数据引擎,提示MLLM生成密集的、带时间戳的描述。此外,我们观察到简单的监督微调(SFT)是不够的,因为罕见概念和常见概念之间的性能差距仍然存在。我们发现MLLM的视频理解能力明显超过了它们的直接定位能力。基于此,我们提出了一种自校正链式思考(CoT)训练范式。我们训练MLLM首先进行预测,然后利用其理解能力反思和改进自己的预测。这种能力通过SFT、CoT微调和强化学习的三阶段流程来实现。大量的实验表明,我们的方法不仅在我们的OmniVTG数据集中擅长开放世界定位,而且在四个现有的VTG基准测试中实现了最先进的零样本性能。

🔬 方法详解

问题定义:视频时序定位(VTG)旨在根据文本查询在视频中定位对应的时间片段。现有方法在开放世界场景下,由于数据集规模和语义多样性的限制,对罕见概念的定位效果较差,泛化能力不足。现有数据集无法覆盖所有概念,导致模型在训练时无法充分学习到各种概念的表示,从而影响了其在实际应用中的性能。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)强大的视频理解能力,通过自校正链式思考(CoT)的方式,让模型在预测时序片段后,能够反思并修正自己的预测。这种方法借鉴了人类解决问题的思路,即先尝试解决问题,然后根据已有的知识和经验来检查和改进解决方案。

技术框架:整体框架包含三个主要阶段:1) 使用语义覆盖迭代扩展流程构建大规模数据集OmniVTG,该流程专注于收集包含罕见概念的视频。2) 使用caption-centric数据引擎,提示MLLM生成密集的、带时间戳的描述,用于高质量标注。3) 使用自校正CoT训练范式,包含SFT、CoT微调和强化学习三个阶段。SFT阶段进行初步的监督学习,CoT微调阶段让模型学习反思和修正预测,强化学习阶段进一步优化模型的性能。

关键创新:论文的关键创新点在于:1) 提出了OmniVTG数据集,该数据集规模大、语义多样性高,能够更好地支持开放世界VTG任务。2) 提出了自校正CoT训练范式,该范式能够有效地利用MLLM的视频理解能力,提高模型的定位精度和泛化能力。3) 使用caption-centric数据引擎,利用MLLM生成高质量的密集字幕,从而降低了人工标注的成本。

关键设计:在数据集构建方面,使用了语义覆盖迭代扩展流程,确保数据集包含各种概念。在CoT微调阶段,设计了特定的prompt,引导模型进行反思和修正。强化学习阶段,使用了合适的奖励函数,鼓励模型生成更准确的预测。具体参数设置和网络结构细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在OmniVTG数据集上取得了显著的性能提升,并在四个现有的VTG基准测试中实现了SOTA零样本性能。具体性能数据和对比基线在论文中有详细展示。该方法尤其在罕见概念的定位方面表现出色,有效解决了现有方法的局限性。

🎯 应用场景

该研究成果可应用于智能视频分析、视频搜索、视频编辑等领域。例如,用户可以通过自然语言查询快速定位视频中的特定事件或片段。该技术还可以用于自动生成视频摘要、视频字幕等,提高视频内容的可访问性和利用率。未来,该技术有望在教育、娱乐、安防等领域发挥重要作用。

📄 摘要(原文)

Video Temporal Grounding (VTG), the task of localizing video segments from text queries, struggles in open-world settings due to limited dataset scale and semantic diversity, causing performance gaps between common and rare concepts. To overcome these limitations, we introduce OmniVTG, a new large-scale dataset for open-world VTG, coupled with a Self-Correction Chain-of-Thought (CoT) training paradigm designed to enhance the grounding capabilities of Multimodal Large Language Models (MLLMs). Our OmniVTG is constructed via a novel Semantic Coverage Iterative Expansion pipeline, which first identifies gaps in the vocabulary of existing datasets and collects videos that are highly likely to contain these target concepts. For high-quality annotation, we leverage the insight that modern MLLMs excel at dense captioning more than direct grounding and design a caption-centric data engine to prompt MLLMs to generate dense, timestamped descriptions. Beyond the dataset, we observe that simple supervised finetuning (SFT) is insufficient, as a performance gap between rare and common concepts still persists. We find that MLLMs' video understanding ability significantly surpasses their direct grounding ability. Based on this, we propose a Self-Correction Chain-of-Thought (CoT) training paradigm. We train the MLLM to first predict, then use its understanding capabilities to reflect on and refine its own predictions. This capability is instilled via a three-stage pipeline of SFT, CoT finetuning, and reinforcement learning. Extensive experiments show our approach not only excels at open-world grounding in our OmniVTG dataset but also achieves state-of-the-art zero-shot performance on four existing VTG benchmarks. Code is available at https://github.com/oceanflowlab/OmniVTG.