TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

作者: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2025-12-16

备注: Project Page: https://timelens-arc-lab.github.io/

💡 一句话要点

TimeLens：利用多模态LLM重新思考视频时序定位任务，并构建高质量基线。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频时序定位 多模态LLM 数据质量 强化学习 视频理解 基准数据集 时间表示

📋 核心要点

现有视频时序定位基准数据集存在质量问题，影响模型评估的可靠性，需要高质量的数据集。
提出TimeLens，通过高质量数据构建和算法设计，提升多模态LLM在视频时序定位任务上的性能。
TimeLens模型在视频时序定位任务上取得了SOTA性能，甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。

📝 摘要（中文）

本文并未提出一种全新的方法，而是为视频理解中的核心能力——视频时序定位(VTG)建立了一个直接、增量但至关重要的基线。尽管多模态大型语言模型(MLLM)在各种视频理解任务中表现出色，但优化它们以适应VTG的方法仍未得到充分探索。本文提出了TimeLens，对构建具有强大VTG能力的MLLM进行了系统研究，主要关注数据质量和算法设计两个维度。首先，揭示了现有VTG基准测试中存在的关键质量问题，并引入了TimeLens-Bench，它包含经过严格质量标准重新注释的三个流行基准测试版本。分析表明，与传统基准相比，模型重新排序发生了巨大变化，证实了先前评估标准的不可靠性。还通过自动重新注释流程解决了嘈杂的训练数据问题，生成了大规模高质量的训练数据集TimeLens-100K。在数据基础之上，深入探索了算法设计原则，产生了一系列有意义的见解和有效而高效的实践。这些实践包括用于时间表示的交错文本编码、一种无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式，以及精心设计的RLVR训练方法。这些努力最终产生了TimeLens模型，这是一系列MLLM，在开源模型中具有最先进的VTG性能，甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。所有代码、数据和模型都将发布，以促进未来的研究。

🔬 方法详解

问题定义：视频时序定位(VTG)旨在根据给定的文本查询，在视频中找到对应的时间片段。现有VTG基准数据集存在标注质量问题，例如标注不准确、不完整或存在歧义，导致模型训练和评估结果不可靠。此外，如何有效地利用多模态大型语言模型(MLLM)来提升VTG性能也是一个挑战。

核心思路：TimeLens的核心思路是通过高质量的数据和有效的算法设计来提升MLLM在VTG任务上的性能。具体来说，首先构建高质量的VTG数据集，然后探索有效的算法设计原则，包括时间表示、训练范式和训练方法。通过高质量的数据保证模型训练的可靠性，通过有效的算法设计提升模型的性能。

技术框架：TimeLens的技术框架主要包括数据构建和算法设计两个部分。数据构建部分包括：1) 揭示现有VTG基准测试中存在的关键质量问题；2) 引入TimeLens-Bench，包含经过严格质量标准重新注释的三个流行基准测试版本；3) 通过自动重新注释流程解决了嘈杂的训练数据问题，生成大规模高质量的训练数据集TimeLens-100K。算法设计部分包括：1) 交错文本编码用于时间表示；2) 使用无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式；3) 精心设计的RLVR训练方法。

关键创新：TimeLens的关键创新在于：1) 揭示并解决了现有VTG基准数据集的质量问题，构建了高质量的VTG数据集TimeLens-Bench和TimeLens-100K；2) 提出了无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式，并设计了有效的RLVR训练方法。与现有方法相比，TimeLens更加注重数据质量，并采用强化学习方法进行训练，从而提升了模型的性能。

关键设计：在时间表示方面，采用了交错文本编码，将时间信息与文本信息进行融合，从而更好地利用时间信息。在训练范式方面，采用了无需思考的具有可验证奖励的强化学习(RLVR)方法，通过可验证的奖励来指导模型的训练，从而提升模型的性能。在训练方法方面，设计了精心设计的RLVR训练方法，包括奖励函数的设计、探索策略的设计等。

🖼️ 关键图片

📊 实验亮点

TimeLens模型在视频时序定位任务上取得了显著的性能提升。在TimeLens-Bench数据集上，TimeLens模型超越了现有的开源模型，甚至超过了GPT-5和Gemini-2.5-Flash等专有模型。实验结果表明，高质量的数据和有效的算法设计可以显著提升MLLM在VTG任务上的性能。

🎯 应用场景

TimeLens的研究成果可以应用于视频搜索、视频摘要、智能客服等领域。例如，用户可以通过文本查询快速定位到视频中的相关片段；可以根据视频内容自动生成视频摘要；智能客服可以根据用户的问题在视频中找到对应的答案。该研究的实际价值在于提升了视频理解的准确性和效率，未来可以促进视频内容的智能化应用。

📄 摘要（原文）

This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.

TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理