TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
作者: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
分类: cs.CV, cs.AI, cs.CL, cs.MM
发布日期: 2025-12-16
备注: Project Page: https://timelens-arc-lab.github.io/
💡 一句话要点
TimeLens:利用多模态LLM重新思考视频时序定位任务,并构建高质量基线。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频时序定位 多模态LLM 数据质量 强化学习 视频理解 基准数据集 时间表示
📋 核心要点
- 现有视频时序定位基准数据集存在质量问题,影响模型评估的可靠性,需要高质量的数据集。
- 提出TimeLens,通过高质量数据构建和算法设计,提升多模态LLM在视频时序定位任务上的性能。
- TimeLens模型在视频时序定位任务上取得了SOTA性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。
📝 摘要(中文)
本文并未提出一种全新的方法,而是为视频理解中的核心能力——视频时序定位(VTG)建立了一个直接、增量但至关重要的基线。尽管多模态大型语言模型(MLLM)在各种视频理解任务中表现出色,但优化它们以适应VTG的方法仍未得到充分探索。本文提出了TimeLens,对构建具有强大VTG能力的MLLM进行了系统研究,主要关注数据质量和算法设计两个维度。首先,揭示了现有VTG基准测试中存在的关键质量问题,并引入了TimeLens-Bench,它包含经过严格质量标准重新注释的三个流行基准测试版本。分析表明,与传统基准相比,模型重新排序发生了巨大变化,证实了先前评估标准的不可靠性。还通过自动重新注释流程解决了嘈杂的训练数据问题,生成了大规模高质量的训练数据集TimeLens-100K。在数据基础之上,深入探索了算法设计原则,产生了一系列有意义的见解和有效而高效的实践。这些实践包括用于时间表示的交错文本编码、一种无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式,以及精心设计的RLVR训练方法。这些努力最终产生了TimeLens模型,这是一系列MLLM,在开源模型中具有最先进的VTG性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。所有代码、数据和模型都将发布,以促进未来的研究。
🔬 方法详解
问题定义:视频时序定位(VTG)旨在根据给定的文本查询,在视频中找到对应的时间片段。现有VTG基准数据集存在标注质量问题,例如标注不准确、不完整或存在歧义,导致模型训练和评估结果不可靠。此外,如何有效地利用多模态大型语言模型(MLLM)来提升VTG性能也是一个挑战。
核心思路:TimeLens的核心思路是通过高质量的数据和有效的算法设计来提升MLLM在VTG任务上的性能。具体来说,首先构建高质量的VTG数据集,然后探索有效的算法设计原则,包括时间表示、训练范式和训练方法。通过高质量的数据保证模型训练的可靠性,通过有效的算法设计提升模型的性能。
技术框架:TimeLens的技术框架主要包括数据构建和算法设计两个部分。数据构建部分包括:1) 揭示现有VTG基准测试中存在的关键质量问题;2) 引入TimeLens-Bench,包含经过严格质量标准重新注释的三个流行基准测试版本;3) 通过自动重新注释流程解决了嘈杂的训练数据问题,生成大规模高质量的训练数据集TimeLens-100K。算法设计部分包括:1) 交错文本编码用于时间表示;2) 使用无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式;3) 精心设计的RLVR训练方法。
关键创新:TimeLens的关键创新在于:1) 揭示并解决了现有VTG基准数据集的质量问题,构建了高质量的VTG数据集TimeLens-Bench和TimeLens-100K;2) 提出了无需思考的具有可验证奖励的强化学习(RLVR)方法作为训练范式,并设计了有效的RLVR训练方法。与现有方法相比,TimeLens更加注重数据质量,并采用强化学习方法进行训练,从而提升了模型的性能。
关键设计:在时间表示方面,采用了交错文本编码,将时间信息与文本信息进行融合,从而更好地利用时间信息。在训练范式方面,采用了无需思考的具有可验证奖励的强化学习(RLVR)方法,通过可验证的奖励来指导模型的训练,从而提升模型的性能。在训练方法方面,设计了精心设计的RLVR训练方法,包括奖励函数的设计、探索策略的设计等。
🖼️ 关键图片
📊 实验亮点
TimeLens模型在视频时序定位任务上取得了显著的性能提升。在TimeLens-Bench数据集上,TimeLens模型超越了现有的开源模型,甚至超过了GPT-5和Gemini-2.5-Flash等专有模型。实验结果表明,高质量的数据和有效的算法设计可以显著提升MLLM在VTG任务上的性能。
🎯 应用场景
TimeLens的研究成果可以应用于视频搜索、视频摘要、智能客服等领域。例如,用户可以通过文本查询快速定位到视频中的相关片段;可以根据视频内容自动生成视频摘要;智能客服可以根据用户的问题在视频中找到对应的答案。该研究的实际价值在于提升了视频理解的准确性和效率,未来可以促进视频内容的智能化应用。
📄 摘要(原文)
This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.