Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model
作者: Abdelrahman Shaker, Muhammad Maaz, Chenhui Gou, Hamid Rezatofighi, Salman Khan, Fahad Shahbaz Khan
分类: cs.CV
发布日期: 2025-03-27
备注: Technical Report. Project Page: https://amshaker.github.io/Mobile-VideoGPT
🔗 代码/项目: GITHUB
💡 一句话要点
提出Mobile-VideoGPT,一种参数小于10亿的高效视频理解语言模型,实现实时吞吐。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 多模态学习 轻量化模型 注意力机制 关键帧选择
📋 核心要点
- 现有视频理解模型计算量大、参数过多,推理速度慢,难以实际应用。
- Mobile-VideoGPT采用轻量级双视觉编码器、高效投影器和小型语言模型,实现高效视频理解。
- 实验表明,Mobile-VideoGPT-0.5B在多个基准测试中优于现有0.5B参数模型,且参数更少,吞吐量更高。
📝 摘要(中文)
视频理解模型通常面临计算需求高、参数量大和推理速度慢的问题,这使得它们在实际应用中效率低下。为了解决这些挑战,我们提出了Mobile-VideoGPT,一个旨在以少于10亿参数运行的高效多模态框架。与传统的视频大型多模态模型(LMM)不同,Mobile-VideoGPT由轻量级的双视觉编码器、高效的投影器和一个小型语言模型(SLM)组成,从而实现实时吞吐量。为了进一步提高效率,我们提出了一种基于注意力的帧评分机制来选择关键帧,以及一个高效的token投影器,用于修剪冗余的视觉token并保留必要的上下文线索。我们在六个已建立的视频理解基准(例如,MVBench,EgoSchema,NextQA和PercepTest)上评估了我们的模型。结果表明,Mobile-VideoGPT-0.5B可以生成每秒高达46个token,同时优于现有的最先进的0.5B参数模型,平均高出6个点,参数减少40%,吞吐量提高2倍以上。我们的代码和模型可在https://github.com/Amshaker/Mobile-VideoGPT公开获得。
🔬 方法详解
问题定义:现有视频理解模型,特别是基于大型多模态模型(LMMs)的方法,通常需要大量的计算资源和参数,导致推理速度慢,难以部署在资源受限的设备上或进行实时应用。因此,如何在保持甚至提升性能的同时,显著降低模型的参数量和计算复杂度,是当前视频理解领域面临的一个重要挑战。
核心思路:Mobile-VideoGPT的核心思路是构建一个轻量级但高效的视频理解框架。它通过采用轻量级的双视觉编码器提取视频特征,利用高效的投影器将视觉特征映射到语言模型的嵌入空间,并使用小型语言模型(SLM)进行最终的理解和生成。此外,还引入了基于注意力的帧评分机制和token投影器,进一步减少冗余信息,提高效率。
技术框架:Mobile-VideoGPT的整体架构包括以下几个主要模块:1) 双视觉编码器:用于从视频帧中提取视觉特征,采用轻量级设计以减少计算量。2) 注意力帧评分模块:基于注意力机制对视频帧进行评分,选择关键帧以减少输入序列的长度。3) 高效Token投影器:将视觉token投影到语言模型的嵌入空间,并修剪冗余token,保留关键上下文信息。4) 小型语言模型(SLM):用于对投影后的视觉特征进行理解和生成,采用小型化设计以提高推理速度。整个流程是:视频输入 -> 双视觉编码器 -> 注意力帧评分 -> Token投影 -> 小型语言模型 -> 文本输出。
关键创新:Mobile-VideoGPT的关键创新在于其整体的轻量化设计和针对视频理解任务的优化。具体包括:1) 轻量级双视觉编码器:相比于传统的视觉编码器,参数量更少,计算效率更高。2) 注意力帧评分机制:能够自适应地选择关键帧,减少冗余信息的处理。3) 高效Token投影器:能够有效地压缩视觉token,降低语言模型的输入维度。这些创新共同作用,使得Mobile-VideoGPT能够在保持甚至提升性能的同时,显著降低模型的参数量和计算复杂度。
关键设计:注意力帧评分模块使用Transformer Encoder结构,通过自注意力机制学习每一帧的重要性得分,选择得分高的帧作为关键帧。Token投影器使用线性层将视觉特征投影到语言模型的嵌入空间,并使用可学习的掩码矩阵来修剪冗余token。小型语言模型可以使用预训练的语言模型进行微调,也可以从头开始训练。损失函数通常包括语言模型损失和可选的辅助损失,例如帧评分的监督损失。
🖼️ 关键图片
📊 实验亮点
Mobile-VideoGPT-0.5B在多个视频理解基准测试中取得了显著的成果。例如,在MVBench、EgoSchema、NextQA和PercepTest等数据集上,Mobile-VideoGPT-0.5B的平均性能优于现有0.5B参数的模型6个百分点,同时参数减少了40%,吞吐量提高了2倍以上,达到了每秒46个token的生成速度。这些结果表明,Mobile-VideoGPT在效率和性能之间取得了良好的平衡。
🎯 应用场景
Mobile-VideoGPT具有广泛的应用前景,包括移动设备上的视频理解、智能监控、机器人导航、视频摘要生成、视频问答等。其轻量化和高效的特点使其能够部署在资源受限的设备上,实现实时的视频理解和交互。未来,可以进一步探索其在自动驾驶、增强现实等领域的应用。
📄 摘要(原文)
Video understanding models often struggle with high computational requirements, extensive parameter counts, and slow inference speed, making them inefficient for practical use. To tackle these challenges, we propose Mobile-VideoGPT, an efficient multimodal framework designed to operate with fewer than a billion parameters. Unlike traditional video large multimodal models (LMMs), Mobile-VideoGPT consists of lightweight dual visual encoders, efficient projectors, and a small language model (SLM), enabling real-time throughput. To further improve efficiency, we present an Attention-Based Frame Scoring mechanism to select the key-frames, along with an efficient token projector that prunes redundant visual tokens and preserves essential contextual cues. We evaluate our model across well-established six video understanding benchmarks (e.g., MVBench, EgoSchema, NextQA, and PercepTest). Our results show that Mobile-VideoGPT-0.5B can generate up to 46 tokens per second while outperforming existing state-of-the-art 0.5B-parameter models by 6 points on average with 40% fewer parameters and more than 2x higher throughput. Our code and models are publicly available at: https://github.com/Amshaker/Mobile-VideoGPT.