TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler

📄 arXiv: 2501.15513v2 📥 PDF

作者: Xingjian Zhang, Xi Weng, Yihao Yue, Zhaoxin Fan, Wenjun Wu, Lei Huang

分类: cs.CV

发布日期: 2025-01-26 (更新: 2025-06-10)

备注: code and training recipes are available at https://github.com/ZhangXJ199/TinyLLaVA-Video

🔗 代码/项目: GITHUB


💡 一句话要点

提出TinyLLaVA-Video,利用分组重采样器实现轻量级视频理解,性能超越7B模型。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轻量级模型 视频理解 多模态学习 分组重采样 时间建模

📋 核心要点

  1. 现有视频理解模型参数量大,训练成本高,轻量级模型难以有效处理长视频序列和时间信息。
  2. 提出视频级分组重采样器,在视频层面减少视觉token数量,降低冗余并增强时间理解。
  3. TinyLLaVA-Video仅需少量资源训练,参数量3.6B,性能超越部分7B模型,具有高效性。

📝 摘要(中文)

视频行为识别和场景理解是多模态智能中的基本任务,是众多实际应用的关键组成部分。尽管大型多模态模型(LMM)在视频理解方面取得了显著进展,但现有的大多数开源模型依赖于超过70亿的参数,并且需要大规模数据集进行训练,这使得它们资源密集且许多研究人员难以访问。此外,轻量级模型在有效处理长视觉序列和时间理解方面面临持续的挑战。本文介绍了TinyLLaVA-Video,一个轻量级但功能强大的视频理解模型,参数约为36亿。我们设计的基石是视频级分组重采样器,这是一种新颖的机制,可以在视频级别显著减少和控制视觉token的数量。与传统的图像级重采样器不同,我们的方法有效地减轻了冗余,同时增强了时间理解,从而提高了基于视频的任务的性能。此外,TinyLLaVA-Video表现出卓越的效率,仅需在8个A100-40G GPU上训练一天。在多个基准测试中,它超越了几个现有的70亿参数模型。我们相信这项工作为未来轻量级视频理解模型的研究提供了宝贵的基础。

🔬 方法详解

问题定义:现有视频理解模型通常参数量巨大,训练需要大量资源,使得研究成本高昂。轻量级模型虽然降低了计算负担,但在处理长视频序列时,难以有效提取时间信息,导致性能下降。因此,如何在降低模型复杂度的同时,保持甚至提升视频理解能力,是本文要解决的核心问题。

核心思路:本文的核心思路是设计一种高效的视频token采样方法,在视频级别进行分组重采样,从而在减少token数量的同时,保留关键的时间信息。通过减少冗余信息,模型可以更专注于重要的时间动态,从而提升视频理解能力。

技术框架:TinyLLaVA-Video的整体框架包括视频编码器、分组重采样器和语言模型三个主要模块。首先,视频编码器将视频帧转换为视觉特征。然后,分组重采样器对这些特征进行降采样,减少token数量。最后,语言模型利用降采样后的视觉特征和文本输入进行多模态理解和生成。

关键创新:该论文最关键的创新点在于提出的视频级分组重采样器。与传统的图像级重采样器不同,该方法在视频级别对视觉token进行分组和重采样,从而更好地保留了视频的时间信息。这种方法能够有效地减少冗余信息,并增强模型对时间动态的理解。

关键设计:分组重采样器将视频帧分成若干组,每组内的帧进行pooling操作,得到该组的代表性特征。pooling的方式可以是平均池化或最大池化。分组的大小是一个重要的超参数,需要根据视频的长度和内容进行调整。此外,损失函数的设计也至关重要,需要确保模型能够学习到视频中的关键时间信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TinyLLaVA-Video仅使用3.6B参数,在多个视频理解基准测试中超越了部分7B参数的模型。该模型仅需在8个A100-40G GPU上训练一天,展现了卓越的训练效率。实验结果表明,视频级分组重采样器能够有效提升模型的时间理解能力,从而提高视频理解的整体性能。

🎯 应用场景

TinyLLaVA-Video在视频行为识别、视频内容理解、智能监控、人机交互等领域具有广泛的应用前景。轻量级的模型设计使其能够部署在资源受限的设备上,例如移动设备和嵌入式系统。该研究为开发更高效、更易于部署的视频理解系统奠定了基础,有望推动相关技术在实际场景中的应用。

📄 摘要(原文)

Video behavior recognition and scene understanding are fundamental tasks in multimodal intelligence, serving as critical building blocks for numerous real-world applications. Through large multimodal models (LMMs) have achieved remarkable progress in video understanding, most existing open-source models rely on over 7B parameters and require large-scale datasets for training, making them resource-intensive and inaccessible to many researchers. Furthermore, lightweight models face persistent challenges in effectively processing long visual sequences and temporal understanding. In this work, we introduce TinyLLaVA-Video, a lightweight yet powerful video understanding model with approximately 3.6B parameters. The cornerstone of our design is the video-level group resampler, a novel mechanism that significantly reduces and controls the number of visual tokens at the video level. Unlike traditional image-level resampler, our approach effectively mitigates redundancy while enhancing temporal comprehension, leading to improved performance on video-based tasks. In addition, TinyLLaVA-Video demonstrates exceptional efficiency, requiring only one day of training on 8 A100-40G GPUs. It surpasses several existing 7B-parameter models on multiple benchmarks. We believe this work provides a valuable foundation for future research on lightweight video understanding models. The code and weights is available at https://github.com/ZhangXJ199/TinyLLaVA-Video.