AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity

📄 arXiv: 2410.02745v3 📥 PDF

作者: Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-09-20 (更新: 2025-08-06)

备注: Accepted by ACL 2025 Findings


💡 一句话要点

AVG-LLaVA:提出一种自适应视觉粒度的高效大型多模态模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 视觉粒度 自适应选择 高效推理 大型语言模型

📋 核心要点

  1. 现有LMM处理高分辨率图像时,通常将其分割成多个局部图像和一个全局图像,导致大量的视觉tokens,效率较低。
  2. AVG-LLaVA通过视觉粒度路由模块,自适应地选择合适的视觉粒度,从而减少视觉tokens的数量,提高推理速度。
  3. 实验结果表明,AVG-LLaVA在多个基准测试中表现出色,同时显著降低了视觉tokens的数量并提高了推理速度。

📝 摘要(中文)

本文提出AVG-LLaVA,一种大型多模态模型(LMM),能够基于输入图像和指令自适应地选择合适的视觉粒度。该模型首先应用多个池化层来获得不同粒度的视觉tokens。然后,提出了一个视觉粒度路由模块,包含Transformer层、MLP层和投票层,用于根据图像和指令选择合适的视觉粒度。此外,提出了一种新的训练范式RGLF,旨在将路由模块预测的粒度与LMM的偏好对齐,而无需额外的手动标注数据。大量实验和分析表明,AVG-LLaVA在11个基准测试中取得了优异的性能,并显著减少了视觉tokens的数量,加快了推理速度(例如,在AI2D基准测试中,视觉tokens减少了85.3%,推理速度提高了2.53倍)。

🔬 方法详解

问题定义:现有的大型多模态模型在处理高分辨率图像时,通常将图像分割成多个局部区域和一个全局图像,导致视觉tokens数量庞大,计算成本高昂,推理速度慢。这种固定粒度的处理方式无法根据图像内容和指令进行自适应调整,造成了资源浪费和性能瓶颈。

核心思路:AVG-LLaVA的核心思路是引入自适应视觉粒度的概念,根据输入图像的内容和指令,动态选择最合适的视觉粒度进行处理。通过这种方式,模型可以避免不必要的计算,提高效率,同时保持甚至提升性能。模型通过学习图像和指令之间的关系,自动确定哪些区域需要更细致的观察,哪些区域可以采用更粗略的粒度。

技术框架:AVG-LLaVA的整体框架包括以下几个主要模块:1) 多层池化层:用于提取不同粒度的视觉特征。2) 视觉粒度路由模块:包含Transformer层、MLP层和投票层,用于根据图像和指令选择合适的视觉粒度。3) LLaVA模型:作为主干模型,接收选择后的视觉特征和文本指令,进行多模态理解和生成。4) RGLF训练范式:用于对齐路由模块的预测和LLM的偏好。整体流程是,输入图像经过多层池化得到不同粒度的视觉tokens,然后视觉粒度路由模块根据图像和指令选择合适的粒度,最后将选择后的视觉tokens输入LLaVA模型进行处理。

关键创新:AVG-LLaVA的关键创新在于视觉粒度路由模块和RGLF训练范式。视觉粒度路由模块能够根据图像和指令自适应地选择合适的视觉粒度,这是与现有方法的本质区别。RGLF训练范式则解决了如何训练路由模块,使其预测的粒度与LLM的偏好对齐的问题,无需额外的人工标注数据。

关键设计:视觉粒度路由模块使用Transformer层来捕捉图像和指令之间的关系,使用MLP层进行粒度预测,使用投票层来整合不同粒度的信息。RGLF训练范式通过设计特定的损失函数,鼓励路由模块选择LLM更喜欢的粒度。具体来说,损失函数包括两部分:一部分是交叉熵损失,用于衡量路由模块的预测准确性;另一部分是KL散度损失,用于衡量路由模块的预测与LLM的偏好之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AVG-LLaVA在11个基准测试中取得了优异的性能。例如,在AI2D基准测试中,AVG-LLaVA的视觉tokens减少了85.3%,推理速度提高了2.53倍。与其他LMM相比,AVG-LLaVA在保持甚至提升性能的同时,显著降低了计算成本,提高了效率。这些实验结果充分证明了AVG-LLaVA的有效性和优越性。

🎯 应用场景

AVG-LLaVA具有广泛的应用前景,例如智能问答、图像描述、视觉推理等。该模型可以应用于机器人、自动驾驶、智能家居等领域,提高系统的智能化水平和效率。通过自适应视觉粒度选择,该模型可以更好地处理复杂场景,减少计算资源消耗,实现更高效的多模态交互。

📄 摘要(原文)

Recently, large multimodal models (LMMs) have achieved significant advancements. When dealing with high-resolution images, dominant LMMs typically divide them into multiple local images and a global image, leading to a large number of visual tokens. In this work, we introduce AVG-LLaVA, an LMM that can adaptively select the appropriate visual granularity based on the input image and instruction. Specifically, we first apply the multiple pooling layers to obtain visual tokens at different granularities. Then we propose a visual granularity router, which includes a Transformer layer, an MLP layer, and a voter layer, used to select the appropriate visual granularity based on the image and instruction. Furthermore, we put forward RGLF, a novel training paradigm that aims at aligning the granularity predicted by the router with the preferences of the LMM, without the need for additional manually annotated data. Extensive experiments and analysis show that AVG-LLaVA achieves superior performance across 11 benchmarks, as well as significantly reduces the number of visual tokens and speeds up inference (e.g., an 85.3% reduction in visual tokens and a 2.53$\times$ increase in inference speed on the AI2D benchmark).