EvoVid: Temporal-Centric Self-Evolution for Video Large Language Models

📄 arXiv: 2605.21931v1 📥 PDF

作者: Shiqi Huang, Ziyue Wang, Zhongrong Zuo, Han Qiu, Qi She, Bihan Wen

分类: cs.CV

发布日期: 2026-05-21

备注: Project page: https://huangshiqi128.github.io/EvoVid.io/


💡 一句话要点

EvoVid:面向视频大语言模型的时间中心自进化框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 自进化学习 时间建模 强化学习 视频理解 视频推理 无监督学习

📋 核心要点

  1. 现有Video-LLM依赖人工标注进行强化学习,成本高且受限于人类专业知识,难以有效扩展。
  2. EvoVid提出时间中心自进化框架,通过时间感知的提问者和解答者奖励,直接从原始视频中学习。
  3. 实验表明,EvoVid在多个基准测试中显著提升了Video-LLM的性能,与监督学习方法相比具有竞争力。

📝 摘要(中文)

近年来,视频大语言模型(Video-LLMs)通过强化学习(RL)在视频推理方面表现出强大的能力。然而,现有的RL流程严重依赖于人工标注的任务和解决方案,导致扩展成本高昂,并从根本上受到人类专业知识的限制。自进化框架通过自主的提问者-解答者自博弈提供了一种有前景的替代方案。不幸的是,这些方法主要为文本和图像等静态模态设计,无法捕捉到视频推理至关重要的时间动态。本文提出了EvoVid,一个时间中心自进化框架,使Video-LLMs能够直接从原始、未标注的视频中进行改进。具体来说,我们引入了两个互补的时间中心奖励:一个时间感知提问者奖励,通过时间扰动敏感性鼓励生成时间相关的提问;以及一个时间定位解答者奖励,通过固有的视频片段定位提供自动时间监督。在四个基础模型和六个基准测试上的大量实验表明,相对于基础模型和现有的自进化基线,性能均得到一致提升,并实现了与监督方法具有竞争力的性能。这些结果表明,时间中心自进化是视频理解和推理的一种有效且可扩展的范例。

🔬 方法详解

问题定义:现有Video-LLM的训练依赖于大量人工标注数据,这限制了模型的可扩展性和泛化能力。此外,现有自进化框架主要针对静态模态,忽略了视频中重要的时间动态信息,导致模型在视频理解和推理方面表现不佳。

核心思路:EvoVid的核心思路是利用自进化框架,让Video-LLM能够从原始、未标注的视频中自主学习。通过设计时间中心奖励,鼓励模型关注视频中的时间信息,从而提高视频理解和推理能力。

技术框架:EvoVid框架包含两个主要模块:提问者(Questioner)和解答者(Solver)。提问者负责生成与视频内容相关的问题,解答者则尝试回答这些问题。框架通过自博弈的方式,不断优化提问者和解答者的能力。此外,EvoVid引入了两个时间中心奖励:时间感知提问者奖励和时间定位解答者奖励。

关键创新:EvoVid的关键创新在于提出了时间中心自进化框架,并设计了时间感知提问者奖励和时间定位解答者奖励。时间感知提问者奖励鼓励提问者生成与视频时间信息相关的问题,时间定位解答者奖励则通过视频片段定位提供自动时间监督。这使得模型能够更好地理解视频中的时间动态信息。

关键设计:时间感知提问者奖励通过时间扰动敏感性来衡量提问者生成的问题是否与视频的时间信息相关。具体来说,对视频进行时间上的扰动,如果提问者生成的问题对扰动敏感,则说明该问题与视频的时间信息相关,给予更高的奖励。时间定位解答者奖励则通过视频片段定位来提供自动时间监督。具体来说,解答者需要定位视频中与问题相关的片段,如果定位准确,则给予更高的奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoVid在四个基础模型和六个基准测试上进行了广泛的实验,结果表明,相对于基础模型和现有的自进化基线,EvoVid的性能均得到一致提升,并实现了与监督方法具有竞争力的性能。例如,在XXX数据集上,EvoVid的性能提升了X%。这些结果充分证明了时间中心自进化是视频理解和推理的一种有效且可扩展的范例。

🎯 应用场景

EvoVid具有广泛的应用前景,例如智能监控、自动驾驶、视频内容分析和生成等领域。通过自主学习和时间信息利用,EvoVid能够提高视频理解和推理能力,从而为这些应用提供更智能、更高效的解决方案。未来,EvoVid有望推动视频大语言模型在实际应用中的普及。

📄 摘要(原文)

Recent Video Large Language Models (Video-LLMs) have demonstrated strong capabilities in video reasoning through reinforcement learning (RL). However, existing RL pipelines rely heavily on human-annotated tasks and solutions, making them costly to scale and fundamentally constrained by human expertise. Self-evolving frameworks have recently emerged as a promising alternative through autonomous Questioner-Solver self-play. Unfortunately, these approaches are primarily designed for static modalities such as text and images, fundamentally failing to capture the temporal dynamics that are central to video reasoning. In this work, we propose $\textbf{EvoVid}$, a temporal-centric self-evolving framework that enables Video-LLMs to improve directly from raw, unannotated videos. Specifically, we introduce two complementary temporal-centric rewards: a temporal-aware Questioner reward that encourages temporally dependent question generation through temporal perturbation sensitivity, and a temporal-grounded Solver reward that provides automatic temporal supervision via inherent video segment localization. Extensive experiments across four base models and six benchmarks demonstrate consistent improvements over both base models and existing self-evolving baselines, achieving competitive performance with supervised methods. These results highlight temporal-centric self-evolution as an effective and scalable paradigm for video understanding and reasoning.