Towards One-to-Many Temporal Grounding

作者: Qi Xu, Yue Tan, Shihao Chen, Jiahao Meng, Anna Wang, Shunping Ji, Hao Fei, Jason Li

分类: cs.CV, cs.AI

发布日期: 2026-06-04

备注: Accepted to ICML'26

💡 一句话要点

提出一种方法以解决多段视频定位问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 时间定位 多段视频 事件数量感知 奖励函数 数据集构建 性能评估 深度学习

📋 核心要点

现有方法主要集中于单段视频检索，缺乏对多段视频的有效定位能力，导致在实际应用中表现不佳。
论文提出了一种系统性解决方案，通过建立OMTG基准和数据集，设计新的奖励函数来提升模型性能。
实验结果显示，所提模型在OMTG基准上取得了43.65%的EtF1，显著超越了现有的最佳模型，展示了其有效性。

📝 摘要（中文）

时间定位（TG）旨在根据文本查询定位视频片段。以往研究主要集中于单段检索，而现实场景常需为单一查询定位多个不相交的片段，称为一对多时间定位（OMTG）。现有的多模态语言模型在此背景下表现不佳，常因缺乏事件数量感知而导致接近零的得分。为此，本文提出系统性解决方案，包含三个关键贡献：建立首个全面的OMTG基准，提出计数准确率（C-Acc）和有效时间F1（EtF1）作为评估指标；构建高质量的OMTG数据集，包含56k样本；开发专为OMTG设计的新型时间和字幕奖励函数。实验表明，模型在OMTG基准上实现了43.65%的新状态下EtF1，超越Gemini 2.5 Pro和Seed-1.8分别达15.85%和15.61%。

🔬 方法详解

问题定义：本文旨在解决一对多时间定位（OMTG）问题，现有的多模态语言模型在此场景下表现不佳，常因缺乏事件数量感知而导致接近零的得分。

核心思路：提出系统性解决方案，建立OMTG基准和数据集，并设计新的时间和字幕奖励函数，以提升模型在多段视频定位任务中的表现。

技术框架：整体架构包括数据集构建、模型训练和评估三个主要模块。数据集通过复杂的构建流程生成，模型训练中引入新的奖励函数以优化策略。

关键创新：首次提出OMTG基准和评估指标，特别是计数准确率（C-Acc）和有效时间F1（EtF1），为多段视频定位提供了新的评估标准。

关键设计：设计了基于Chain-of-Thought推理的字幕奖励函数，明确指导策略优化，确保模型在精确性和完整性上的提升。

🖼️ 关键图片

📊 实验亮点

实验结果显示，所提模型在OMTG基准上取得了43.65%的EtF1，超越了Gemini 2.5 Pro和Seed-1.8，分别提升了15.85%和15.61%。这一成果标志着在多段视频定位任务中的显著进展。

🎯 应用场景

该研究的潜在应用领域包括视频监控、内容检索和智能视频编辑等。通过提升多段视频定位的能力，能够更好地满足用户在复杂场景下的需求，具有重要的实际价值和未来影响。

📄 摘要（原文）

Temporal Grounding (TG) aims to localize video segments corresponding to a textual query. Prior research predominantly focuses on single-segment retrieval. Real-world scenarios, however, often require localizing multiple disjoint segments for a single query -- a setting we term One-to-Many Temporal Grounding (OMTG). Previous state-of-the-art MLLMs, optimized for one-to-one settings, struggle in this context, often yielding near-zero scores due to a lack of event cardinality perception. To bridge this gap, we present a systematic solution with three key contributions. First, we establish the first comprehensive OMTG benchmark, introducing Count Accuracy (C-Acc) and Effective Temporal F1 (EtF1) as evaluation metrics. Second, we curate a high-quality OMTG dataset comprising 56k samples through a sophisticated construction pipeline. Third, we develop novel temporal and caption reward functions specifically designed for OMTG. In particular, the caption reward leverages Chain-of-Thought reasoning over dense video captions to explicitly guide policy optimization toward both preciseness and completeness. Extensive experiments show our model achieves a new state-of-the-art EtF1 of 43.65\% on OMTG Bench, outperforming Gemini 2.5 Pro and Seed-1.8 by 15.85\% and 15.61\%, respectively.

Towards One-to-Many Temporal Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理