LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
作者: Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-01-07 (更新: 2025-03-02)
备注: Accepted to ICLR 2025. Code: https://github.com/ictnlp/LLaVA-Mini Model: https://huggingface.co/ICTNLP/llava-mini-llama-3.1-8b
💡 一句话要点
LLaVA-Mini:通过单视觉Token实现高效的图像和视频大模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态模型 视觉Token压缩 模态预融合 高效计算 图像理解 视频理解 低延迟 LLM
📋 核心要点
- 现有LMM计算开销大,主要由于大规模参数和大量的视觉token,降低效率。
- LLaVA-Mini通过模态预融合,将视觉信息提前融入文本token,极大地压缩了视觉token的数量,仅使用单个视觉token。
- 实验结果表明,LLaVA-Mini在多个图像和视频基准测试中优于LLaVA-v1.5,同时显著降低了计算成本和延迟。
📝 摘要(中文)
本文提出LLaVA-Mini,一种高效的大型多模态模型(LMM),旨在减少视觉token的数量,从而降低计算开销。现有LMM框架通常将视觉输入编码为视觉token,并将其与文本指令集成到大型语言模型(LLM)的上下文中,但大规模参数和大量的上下文token(主要是视觉token)导致了巨大的计算负担。与以往专注于用更小模型替换LLM主干的努力不同,LLaVA-Mini关注token数量的关键问题。通过分析LMM如何理解视觉token,发现大多数视觉token仅在LLM主干的早期层中发挥关键作用,主要负责将视觉信息融合到文本token中。基于此,LLaVA-Mini引入了模态预融合,提前将视觉信息融合到文本token中,从而将输入LLM主干的视觉token压缩到单个token。LLaVA-Mini是一个统一的大型多模态模型,能够以高效的方式支持图像、高分辨率图像和视频的理解。在11个基于图像和7个基于视频的基准测试中,实验表明LLaVA-Mini仅使用1个视觉token就优于使用576个视觉token的LLaVA-v1.5。效率分析表明,LLaVA-Mini可以将FLOPs减少77%,在40毫秒内提供低延迟响应,并在具有24GB内存的GPU硬件上处理超过10,000帧的视频。
🔬 方法详解
问题定义:现有的大型多模态模型(LMM)在处理视觉信息时,需要将图像或视频编码成大量的视觉token,这些token会显著增加计算负担,导致模型效率降低,难以满足实时应用的需求。以往的优化方法主要集中在替换LLM主干网络,而忽略了视觉token数量带来的影响。
核心思路:LLaVA-Mini的核心思路是通过模态预融合,将视觉信息提前融合到文本token中,从而大幅减少输入到LLM主干的视觉token数量。这种方法基于观察:大多数视觉token仅在LLM的早期层中发挥作用,主要负责将视觉信息融入文本。
技术框架:LLaVA-Mini的整体框架包含以下几个主要阶段:1. 视觉编码器:用于提取图像或视频的视觉特征。2. 模态预融合模块:将视觉特征融合到文本token中。3. LLM主干:处理融合后的文本token,生成最终的输出。整个流程的关键在于模态预融合模块,它负责将大量的视觉信息压缩到少量的文本token中。
关键创新:LLaVA-Mini最重要的创新点在于模态预融合策略,它允许模型仅使用一个视觉token就能达到甚至超过使用大量视觉token的模型的性能。这种方法显著降低了计算成本,提高了模型的效率。与现有方法相比,LLaVA-Mini直接解决了视觉token数量过多的问题,而不是仅仅优化LLM主干。
关键设计:模态预融合模块的具体实现细节未知,论文中可能没有详细描述。但可以推测,该模块可能采用某种注意力机制或特征变换方法,将视觉特征有效地融入到文本token中。损失函数和网络结构等其他技术细节也未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LLaVA-Mini在11个图像基准和7个视频基准测试中,仅使用1个视觉token就超越了使用576个视觉token的LLaVA-v1.5。效率分析表明,LLaVA-Mini可以将FLOPs减少77%,并在40毫秒内提供低延迟响应。此外,它还可以在具有24GB内存的GPU上处理超过10,000帧的视频。
🎯 应用场景
LLaVA-Mini在需要实时响应和低计算成本的多模态应用中具有广泛的应用前景,例如:移动设备上的图像/视频理解、实时视频监控、机器人视觉、以及需要快速处理大量视觉数据的场景。该研究为开发更高效、更易于部署的大型多模态模型提供了新的思路。
📄 摘要(原文)
The advent of real-time large multimodal models (LMMs) like GPT-4o has sparked considerable interest in efficient LMMs. LMM frameworks typically encode visual inputs into vision tokens (continuous representations) and integrate them and textual instructions into the context of large language models (LLMs), where large-scale parameters and numerous context tokens (predominantly vision tokens) result in substantial computational overhead. Previous efforts towards efficient LMMs always focus on replacing the LLM backbone with smaller models, while neglecting the crucial issue of token quantity. In this paper, we introduce LLaVA-Mini, an efficient LMM with minimal vision tokens. To achieve a high compression ratio of vision tokens while preserving visual information, we first analyze how LMMs understand vision tokens and find that most vision tokens only play a crucial role in the early layers of LLM backbone, where they mainly fuse visual information into text tokens. Building on this finding, LLaVA-Mini introduces modality pre-fusion to fuse visual information into text tokens in advance, thereby facilitating the extreme compression of vision tokens fed to LLM backbone into one token. LLaVA-Mini is a unified large multimodal model that can support the understanding of images, high-resolution images, and videos in an efficient manner. Experiments across 11 image-based and 7 video-based benchmarks demonstrate that LLaVA-Mini outperforms LLaVA-v1.5 with just 1 vision token instead of 576. Efficiency analyses reveal that LLaVA-Mini can reduce FLOPs by 77%, deliver low-latency responses within 40 milliseconds, and process over 10,000 frames of video on the GPU hardware with 24GB of memory.