OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

作者: Minghang Zheng, Zihao Yin, Yi Yang, Yuxin Peng, Yang Liu

分类: cs.CV

发布日期: 2026-04-28

备注: CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出OmniVTG数据集和自校正CoT训练范式，提升开放世界视频时序定位性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频时序定位 开放世界 多模态学习 大型语言模型 链式思考 自校正 数据集构建

📋 核心要点

现有视频时序定位方法在开放世界场景中，受限于数据集规模和语义多样性，对罕见概念的定位效果不佳。
论文提出OmniVTG数据集和自校正CoT训练范式，利用MLLM的视频理解能力来反思和改进自身的定位预测。
实验表明，该方法在OmniVTG数据集上表现出色，并在四个现有VTG基准测试中实现了SOTA零样本性能。

📝 摘要（中文）

视频时序定位(VTG)旨在根据文本查询定位视频片段，但在开放世界场景中，由于数据集规模和语义多样性的限制，常见概念和罕见概念之间存在性能差距。为了克服这些限制，我们引入了OmniVTG，这是一个新的大规模开放世界VTG数据集，并结合了一种自校正链式思考(CoT)训练范式，旨在增强多模态大型语言模型(MLLM)的定位能力。我们的OmniVTG通过一种新颖的语义覆盖迭代扩展流程构建，该流程首先识别现有数据集词汇表中的差距，并收集极有可能包含这些目标概念的视频。为了获得高质量的标注，我们利用了现代MLLM在密集字幕生成方面优于直接定位的优势，并设计了一个以字幕为中心的数据引擎，提示MLLM生成密集的、带时间戳的描述。此外，我们观察到简单的监督微调(SFT)是不够的，因为罕见概念和常见概念之间的性能差距仍然存在。我们发现MLLM的视频理解能力明显超过了它们的直接定位能力。基于此，我们提出了一种自校正链式思考(CoT)训练范式。我们训练MLLM首先进行预测，然后利用其理解能力反思和改进自己的预测。这种能力通过SFT、CoT微调和强化学习的三阶段流程来实现。大量的实验表明，我们的方法不仅在我们的OmniVTG数据集中擅长开放世界定位，而且在四个现有的VTG基准测试中实现了最先进的零样本性能。

🔬 方法详解

问题定义：视频时序定位(VTG)旨在根据文本查询在视频中定位对应的时间片段。现有方法在开放世界场景下，由于数据集规模和语义多样性的限制，对罕见概念的定位效果较差，泛化能力不足。现有数据集无法覆盖所有概念，导致模型在训练时无法充分学习到各种概念的表示，从而影响了其在实际应用中的性能。

核心思路：论文的核心思路是利用多模态大型语言模型(MLLM)强大的视频理解能力，通过自校正链式思考(CoT)的方式，让模型在预测时序片段后，能够反思并修正自己的预测。这种方法借鉴了人类解决问题的思路，即先尝试解决问题，然后根据已有的知识和经验来检查和改进解决方案。

技术框架：整体框架包含三个主要阶段：1) 使用语义覆盖迭代扩展流程构建大规模数据集OmniVTG，该流程专注于收集包含罕见概念的视频。2) 使用caption-centric数据引擎，提示MLLM生成密集的、带时间戳的描述，用于高质量标注。3) 使用自校正CoT训练范式，包含SFT、CoT微调和强化学习三个阶段。SFT阶段进行初步的监督学习，CoT微调阶段让模型学习反思和修正预测，强化学习阶段进一步优化模型的性能。

关键创新：论文的关键创新点在于：1) 提出了OmniVTG数据集，该数据集规模大、语义多样性高，能够更好地支持开放世界VTG任务。2) 提出了自校正CoT训练范式，该范式能够有效地利用MLLM的视频理解能力，提高模型的定位精度和泛化能力。3) 使用caption-centric数据引擎，利用MLLM生成高质量的密集字幕，从而降低了人工标注的成本。

关键设计：在数据集构建方面，使用了语义覆盖迭代扩展流程，确保数据集包含各种概念。在CoT微调阶段，设计了特定的prompt，引导模型进行反思和修正。强化学习阶段，使用了合适的奖励函数，鼓励模型生成更准确的预测。具体参数设置和网络结构细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在OmniVTG数据集上取得了显著的性能提升，并在四个现有的VTG基准测试中实现了SOTA零样本性能。具体性能数据和对比基线在论文中有详细展示。该方法尤其在罕见概念的定位方面表现出色，有效解决了现有方法的局限性。

🎯 应用场景

该研究成果可应用于智能视频分析、视频搜索、视频编辑等领域。例如，用户可以通过自然语言查询快速定位视频中的特定事件或片段。该技术还可以用于自动生成视频摘要、视频字幕等，提高视频内容的可访问性和利用率。未来，该技术有望在教育、娱乐、安防等领域发挥重要作用。

📄 摘要（原文）

Video Temporal Grounding (VTG), the task of localizing video segments from text queries, struggles in open-world settings due to limited dataset scale and semantic diversity, causing performance gaps between common and rare concepts. To overcome these limitations, we introduce OmniVTG, a new large-scale dataset for open-world VTG, coupled with a Self-Correction Chain-of-Thought (CoT) training paradigm designed to enhance the grounding capabilities of Multimodal Large Language Models (MLLMs). Our OmniVTG is constructed via a novel Semantic Coverage Iterative Expansion pipeline, which first identifies gaps in the vocabulary of existing datasets and collects videos that are highly likely to contain these target concepts. For high-quality annotation, we leverage the insight that modern MLLMs excel at dense captioning more than direct grounding and design a caption-centric data engine to prompt MLLMs to generate dense, timestamped descriptions. Beyond the dataset, we observe that simple supervised finetuning (SFT) is insufficient, as a performance gap between rare and common concepts still persists. We find that MLLMs' video understanding ability significantly surpasses their direct grounding ability. Based on this, we propose a Self-Correction Chain-of-Thought (CoT) training paradigm. We train the MLLM to first predict, then use its understanding capabilities to reflect on and refine its own predictions. This capability is instilled via a three-stage pipeline of SFT, CoT finetuning, and reinforcement learning. Extensive experiments show our approach not only excels at open-world grounding in our OmniVTG dataset but also achieves state-of-the-art zero-shot performance on four existing VTG benchmarks. Code is available at https://github.com/oceanflowlab/OmniVTG.

OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理