Matryoshka Multimodal Models

📄 arXiv: 2405.17430v2 📥 PDF

作者: Mu Cai, Jianwei Yang, Jianfeng Gao, Yong Jae Lee

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-05-27 (更新: 2024-07-29)

备注: Project Page: https://matryoshka-mm.github.io/


💡 一句话要点

提出M3:Matryoshka多模态模型,通过嵌套视觉token实现视觉粒度可控和效率提升。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 模型压缩 视觉粒度 效率优化 俄罗斯套娃 视觉token 自适应计算

📋 核心要点

  1. 现有LMMs在处理高分辨率图像时,固定数量的视觉token导致计算效率低下,缺乏灵活性。
  2. M3模型通过学习嵌套的视觉token集合,实现视觉内容在不同粒度上的表示,从而控制信息密度。
  3. 实验表明,M3模型在COCO数据集上仅需少量token即可达到与使用全部token相近的精度。

📝 摘要(中文)

大型多模态模型(LMMs),如LLaVA,在视觉-语言推理方面表现出色。这些模型首先将图像嵌入到固定数量的视觉token中,然后将其输入到大型语言模型(LLM)。然而,这种设计在高分辨率图像和视频等密集视觉场景中会导致过多的token,从而导致效率低下。虽然存在token剪枝/合并方法,但它们为每个图像产生单一长度的输出,并且不能灵活地权衡信息密度与效率。受俄罗斯套娃概念的启发,我们提出了M3:Matryoshka多模态模型,该模型学习将视觉内容表示为嵌套的视觉token集合,这些token捕获了从粗到细多个粒度的信息。我们的方法为LMMs提供了几个独特的好处:(1)可以在推理期间显式控制每个测试实例的视觉粒度,例如,根据内容预期复杂性或简单性调整用于表示图像的token数量;(2)M3提供了一个框架,用于分析现有数据集所需的粒度,我们发现COCO风格的基准测试只需要大约~9个视觉token即可获得与使用所有576个token相似的准确度;(3)我们的方法为探索样本级别性能和视觉token长度之间的最佳权衡提供了基础,我们的研究表明,oracle上限和当前固定尺度表示之间存在很大差距。

🔬 方法详解

问题定义:现有的大型多模态模型(LMMs)在处理高分辨率图像或视频等密集视觉场景时,由于需要将图像编码成固定数量的视觉tokens,导致计算量巨大,效率低下。现有的token剪枝或合并方法虽然可以减少token数量,但它们无法根据图像内容的复杂程度动态调整token数量,缺乏灵活性。

核心思路:受到俄罗斯套娃(Matryoshka Dolls)的启发,论文的核心思路是将视觉内容表示为嵌套的视觉token集合。每个集合代表一个不同的视觉粒度级别,从粗略到精细。通过这种方式,模型可以根据具体任务和图像的复杂性,选择合适的token数量,从而在效率和性能之间取得平衡。

技术框架:M3模型的整体框架包括一个视觉编码器,用于提取图像特征;一个Matryoshka Tokenizer,用于将视觉特征转换为嵌套的token集合;以及一个大型语言模型(LLM),用于处理视觉token并生成文本输出。在训练过程中,模型学习如何生成不同粒度的视觉token,并学习如何根据任务需求选择合适的token集合。在推理过程中,可以根据图像的复杂程度动态调整使用的token数量。

关键创新:M3模型的最重要的技术创新点在于其Matryoshka Tokenizer,它能够生成嵌套的视觉token集合,从而实现视觉粒度的可控性。与现有方法相比,M3模型能够根据图像内容动态调整token数量,从而在效率和性能之间取得更好的平衡。此外,M3模型还提供了一个分析数据集所需粒度的框架,可以帮助研究人员更好地理解不同数据集的特点。

关键设计:Matryoshka Tokenizer的具体实现细节未知,但可以推测其可能采用了某种层次化的编码结构,例如,可以使用多个卷积层或Transformer层来提取不同尺度的视觉特征,然后将这些特征组合成嵌套的token集合。损失函数的设计也至关重要,需要确保模型能够生成高质量的视觉token,并且能够根据任务需求选择合适的token集合。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,M3模型在COCO数据集上仅使用约9个视觉token即可达到与使用全部576个token相近的准确率。此外,M3模型还提供了一个分析数据集所需粒度的框架,可以帮助研究人员更好地理解不同数据集的特点。研究还表明,当前固定尺度表示与oracle上限之间存在较大差距,表明M3模型具有较大的提升空间。

🎯 应用场景

M3模型具有广泛的应用前景,例如,可以应用于智能监控、自动驾驶、图像搜索等领域。在智能监控中,可以根据场景的复杂程度动态调整视觉token的数量,从而提高监控效率。在自动驾驶中,可以根据道路状况动态调整视觉token的数量,从而提高驾驶安全性。在图像搜索中,可以根据用户查询的复杂程度动态调整视觉token的数量,从而提高搜索精度。

📄 摘要(原文)

Large Multimodal Models (LMMs) such as LLaVA have shown strong performance in visual-linguistic reasoning. These models first embed images into a fixed large number of visual tokens and then feed them into a Large Language Model (LLM). However, this design causes an excessive number of tokens for dense visual scenarios such as high-resolution images and videos, leading to great inefficiency. While token pruning/merging methods do exist, they produce a single length output for each image and do not afford flexibility in trading off information density v.s. efficiency. Inspired by the concept of Matryoshka Dolls, we propose M3: Matryoshka Multimodal Models, which learns to represent visual content as nested sets of visual tokens that capture information across multiple coarse-to-fine granularities. Our approach offers several unique benefits for LMMs: (1) One can explicitly control the visual granularity per test instance during inference, e.g. , adjusting the number of tokens used to represent an image based on the anticipated complexity or simplicity of the content; (2) M3 provides a framework for analyzing the granularity needed for existing datasets, where we find that COCO-style benchmarks only need around ~9 visual tokens to obtain accuracy similar to that of using all 576 tokens; (3) Our approach provides a foundation to explore the best trade-off between performance and visual token length at sample level, where our investigation reveals that a large gap exists between the oracle upper bound and current fixed-scale representations.