How Important are Videos for Training Video LLMs?

📄 arXiv: 2506.06928v1 📥 PDF

作者: George Lydakis, Alexander Hermans, Ali Athar, Daan de Geus, Bastian Leibe

分类: cs.CV

发布日期: 2025-06-07

备注: Project page on https://visualcomputinginstitute.github.io/videollm-pseudovideo-training/


💡 一句话要点

视频LLM训练中图像数据的重要性研究:揭示视频数据利用率不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时间推理 图像训练 视频理解 多模态学习

📋 核心要点

  1. 现有Video LLM训练依赖大量视频数据,但模型对视频时序特征的利用率较低,导致训练效率不高。
  2. 该论文提出仅使用图像数据训练Video LLM,并设计简单微调方案,以提升模型的时间推理能力。
  3. 实验结果表明,图像训练的Video LLM在时间推理任务上表现优异,甚至超越部分视频训练模型。

📝 摘要(中文)

视频大语言模型(Video LLM)的研究进展迅速,在短短几年内涌现了大量模型和基准。通常,这些模型以预训练的纯文本LLM为基础,并在图像和视频字幕数据集上进行微调。本文的研究表明,经过仅图像训练的Video LLM在时间推理方面的能力比人们想象的要强,而视频特定训练带来的改进却出人意料地小。具体来说,我们展示了使用最新LongVU算法训练的两个LLM的图像训练版本在TVBench(一个时间推理基准)上表现明显高于随机水平。此外,我们引入了一种简单的微调方案,涉及带注释的图像序列和针对时间能力的提问。该基线的时间推理性能接近甚至高于视频训练的LLM。这表明当前的模型对真实视频中丰富的时序特征的利用并不充分。我们的分析促使人们进一步研究图像训练的LLM执行时间推理的机制,以及导致当前视频训练方案效率低下的瓶颈。

🔬 方法详解

问题定义:当前Video LLM的训练范式过度依赖视频数据,但模型对视频中蕴含的时序信息利用不足,导致训练成本高昂且效果提升有限。现有方法未能充分挖掘图像数据在时间推理方面的潜力。

核心思路:该论文的核心思路是探索图像数据在Video LLM训练中的作用,并论证仅通过图像训练和少量针对性微调,Video LLM也能具备较强的时间推理能力。这挑战了当前以视频数据为主的训练范式,并提示模型可能存在对视频时序特征利用不足的问题。

技术框架:该论文主要采用实验分析的方法。首先,使用LongVU算法训练两个LLM的图像版本。然后,在TVBench基准测试上评估这些模型的性能。此外,论文还提出了一种简单的微调方案,该方案使用带注释的图像序列和针对时间能力的提问来进一步提升模型的时间推理能力。最后,将图像训练和微调后的模型与视频训练的模型进行比较。

关键创新:该论文的关键创新在于揭示了图像数据在Video LLM时间推理能力训练中的重要性,并提出了一个简单有效的图像序列微调方案。该方案能够使模型在时间推理任务上取得与视频训练模型相近甚至更好的性能。这表明当前Video LLM的训练范式可能存在对视频时序特征利用不足的问题。

关键设计:论文提出的微调方案的关键设计在于使用带注释的图像序列和针对时间能力的提问。具体来说,该方案将视频分解为一系列图像帧,并为每个图像帧添加相应的文本描述。然后,设计一系列问题,这些问题需要模型根据图像序列中的时间关系进行推理才能回答。通过这种方式,模型可以学习到图像序列中的时间信息,并提升时间推理能力。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,仅使用图像数据训练的Video LLM在TVBench时间推理基准测试中表现显著高于随机水平。通过简单的图像序列微调方案,模型的时间推理性能可以达到甚至超过视频训练的LLM。这表明当前Video LLM对视频时序特征的利用效率较低,图像数据在时间推理能力训练中扮演着重要角色。

🎯 应用场景

该研究成果可应用于视频理解、视频检索、智能监控等领域。通过降低对视频数据的依赖,可以有效降低Video LLM的训练成本,并提升模型在资源受限场景下的应用潜力。未来的研究可以进一步探索如何更有效地利用图像数据和视频数据,以提升Video LLM的性能。

📄 摘要(原文)

Research into Video Large Language Models (LLMs) has progressed rapidly, with numerous models and benchmarks emerging in just a few years. Typically, these models are initialized with a pretrained text-only LLM and finetuned on both image- and video-caption datasets. In this paper, we present findings indicating that Video LLMs are more capable of temporal reasoning after image-only training than one would assume, and that improvements from video-specific training are surprisingly small. Specifically, we show that image-trained versions of two LLMs trained with the recent LongVU algorithm perform significantly above chance level on TVBench, a temporal reasoning benchmark. Additionally, we introduce a simple finetuning scheme involving sequences of annotated images and questions targeting temporal capabilities. This baseline results in temporal reasoning performance close to, and occasionally higher than, what is achieved by video-trained LLMs. This suggests suboptimal utilization of rich temporal features found in real video by current models. Our analysis motivates further research into the mechanisms that allow image-trained LLMs to perform temporal reasoning, as well as into the bottlenecks that render current video training schemes inefficient.