TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

📄 arXiv: 2512.14698v1 📥 PDF

作者: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-12-16

备注: Project Page: https://timelens-arc-lab.github.io/


💡 一句话要点

TimeLens:利用多模态LLM重新思考视频时序定位任务,并构建高质量基线。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频时序定位 多模态LLM 数据质量 强化学习 视频理解 基准数据集 时间表示

📋 核心要点

  1. 现有视频时序定位基准数据集存在质量问题,影响模型评估的可靠性,需要高质量的数据集。
  2. 提出TimeLens,通过高质量数据构建和算法设计,提升多模态LLM在视频时序定位任务上的性能。
  3. TimeLens模型在视频时序定位任务上取得了SOTA性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。

📝 摘要(中文)

本文并未提出一种全新的方法,而是为视频理解中的核心能力——视频时序定位(VTG)建立了一个直接、增量但至关重要的基线。尽管多模态大型语言模型(MLLM)在各种视频理解任务中表现出色,但优化它们以适应VTG的方法仍未得到充分探索。本文提出了TimeLens,对构建具有强大VTG能力的MLLM进行了系统研究,主要关注数据质量和算法设计两个维度。首先,揭示了现有VTG基准测试中存在的关键质量问题,并引入了TimeLens-Bench,它包含经过严格质量标准重新注释的三个流行基准测试版本。分析表明,与传统基准相比,模型重新排序发生了巨大变化,证实了先前评估标准的不可靠性。还通过自动重新注释流程解决了嘈杂的训练数据问题,生成了大规模高质量的训练数据集TimeLens-100K。在数据基础之上,深入探索了算法设计原则,产生了一系列有意义的见解和有效而高效的实践。这些实践包括用于时间表示的交错文本编码、一种无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式,以及精心设计的RLVR训练方法。这些努力最终产生了TimeLens模型,这是一系列MLLM,在开源模型中具有最先进的VTG性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。所有代码、数据和模型都将发布,以促进未来的研究。

🔬 方法详解

问题定义:视频时序定位(VTG)旨在根据给定的文本查询,在视频中找到对应的时间片段。现有VTG基准数据集存在标注质量问题,例如标注不准确、不完整或存在歧义,导致模型训练和评估结果不可靠。此外,如何有效地利用多模态大型语言模型(MLLM)来提升VTG性能也是一个挑战。

核心思路:TimeLens的核心思路是通过高质量的数据和有效的算法设计来提升MLLM在VTG任务上的性能。具体来说,首先构建高质量的VTG数据集,然后探索有效的算法设计原则,包括时间表示、训练范式和训练方法。通过高质量的数据保证模型训练的可靠性,通过有效的算法设计提升模型的性能。

技术框架:TimeLens的技术框架主要包括数据构建和算法设计两个部分。数据构建部分包括:1) 揭示现有VTG基准测试中存在的关键质量问题;2) 引入TimeLens-Bench,包含经过严格质量标准重新注释的三个流行基准测试版本;3) 通过自动重新注释流程解决了嘈杂的训练数据问题,生成大规模高质量的训练数据集TimeLens-100K。算法设计部分包括:1) 交错文本编码用于时间表示;2) 使用无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式;3) 精心设计的RLVR训练方法。

关键创新:TimeLens的关键创新在于:1) 揭示并解决了现有VTG基准数据集的质量问题,构建了高质量的VTG数据集TimeLens-Bench和TimeLens-100K;2) 提出了无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式,并设计了有效的RLVR训练方法。与现有方法相比,TimeLens更加注重数据质量,并采用强化学习方法进行训练,从而提升了模型的性能。

关键设计:在时间表示方面,采用了交错文本编码,将时间信息与文本信息进行融合,从而更好地利用时间信息。在训练范式方面,采用了无需思考的具有可验证奖励的强化学习(RLVR)方法,通过可验证的奖励来指导模型的训练,从而提升模型的性能。在训练方法方面,设计了精心设计的RLVR训练方法,包括奖励函数的设计、探索策略的设计等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TimeLens模型在视频时序定位任务上取得了显著的性能提升。在TimeLens-Bench数据集上,TimeLens模型超越了现有的开源模型,甚至超过了GPT-5和Gemini-2.5-Flash等专有模型。实验结果表明,高质量的数据和有效的算法设计可以显著提升MLLM在VTG任务上的性能。

🎯 应用场景

TimeLens的研究成果可以应用于视频搜索、视频摘要、智能客服等领域。例如,用户可以通过文本查询快速定位到视频中的相关片段;可以根据视频内容自动生成视频摘要;智能客服可以根据用户的问题在视频中找到对应的答案。该研究的实际价值在于提升了视频理解的准确性和效率,未来可以促进视频内容的智能化应用。

📄 摘要(原文)

This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.