LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts
作者: Yimu Wang, Mozhgan Nasr Azadani, Sean Sedwards, Krzysztof Czarnecki
分类: cs.CV, cs.CL
发布日期: 2025-04-07 (更新: 2025-09-21)
备注: To appear at EMNLP 2025
💡 一句话要点
LEO-MINI:利用条件Token缩减和多模态专家混合,提升多模态大语言模型的效率和视觉推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉Token缩减 专家混合 视觉推理 条件Token缩减
📋 核心要点
- 现有MLLM方法在减少视觉token冗余时,往往牺牲视觉推理能力,限制了模型性能。
- LEO-MINI通过条件Token缩减(CoTR)和多模态专家混合(MMoE)模块,在减少token的同时增强视觉推理。
- 实验表明,LEO-MINI在多个视觉语言任务上优于现有高效MLLM,验证了其效率和性能的提升。
📝 摘要(中文)
多模态大语言模型(MLLM)中视觉token的冗余显著降低了计算效率。最近的方法,如重采样器和摘要器,试图减少视觉token的数量,但牺牲了视觉推理能力。为了解决这个问题,我们提出了LEO-MINI,一种新型MLLM,它显著减少了视觉token的数量,同时提高了视觉推理能力。为了提高效率,LEO-MINI包含CoTR,一种新颖的token缩减模块,利用视觉token、文本token和紧凑的可学习查询之间的相似性,将大量的视觉token整合为更小的集合。为了提高有效性,为了以最小的计算开销扩展模型的能力,LEO-MINI采用了MMoE,一种新颖的多模态专家混合模块。MMOE采用一组LoRA专家和一个新颖的路由器,根据输入文本和视觉token(而不仅仅是输入隐藏状态)在它们之间切换。MMoE还包括一个始终激活的通用LoRA专家,用于学习LLM推理的通用知识。为了提取更丰富的视觉特征,MMOE采用了一组在各种特定领域数据上训练的视觉专家。为了证明LEO-MINI的改进的效率和性能,我们在各种基准视觉语言任务上评估了它,并与现有的高效MLLM进行了比较。
🔬 方法详解
问题定义:多模态大语言模型处理图像时,会生成大量的视觉tokens,这些tokens存在冗余,导致计算效率低下。现有方法试图减少tokens数量,但往往会损失视觉信息,降低视觉推理能力。因此,如何在减少视觉tokens的同时保持甚至提升视觉推理能力是一个关键问题。
核心思路:LEO-MINI的核心思路是利用条件Token缩减(CoTR)模块来减少视觉tokens的冗余,同时采用多模态专家混合(MMoE)模块来增强模型的视觉推理能力。CoTR通过关注文本和视觉token之间的关系,有选择性地缩减视觉tokens。MMoE则通过多个专家网络学习不同的视觉特征,并根据输入动态选择合适的专家,从而提升模型的表达能力。
技术框架:LEO-MINI的整体框架包括视觉编码器、CoTR模块、MMoE模块和语言模型。首先,视觉编码器将图像转换为视觉tokens。然后,CoTR模块根据视觉tokens、文本tokens和可学习的查询向量,将视觉tokens缩减为更小的集合。接着,缩减后的视觉tokens和文本tokens被输入到MMoE模块中,MMoE模块根据输入选择合适的专家网络进行处理。最后,MMoE的输出被输入到语言模型中进行生成。
关键创新:LEO-MINI的关键创新点在于CoTR模块和MMoE模块的设计。CoTR模块通过同时考虑视觉tokens、文本tokens和可学习查询向量,实现了更有效的token缩减。MMoE模块通过多个LoRA专家网络和动态路由机制,实现了更强的视觉推理能力。此外,MMoE还包含一个通用LoRA专家,用于学习LLM推理的通用知识。
关键设计:CoTR模块的关键设计在于相似度计算方式,它同时考虑了视觉token之间的相似度、视觉token与文本token之间的相似度以及视觉token与可学习查询向量之间的相似度。MMoE模块的关键设计在于LoRA专家的数量、路由机制以及通用LoRA专家的引入。路由机制根据输入文本和视觉tokens选择合适的专家,而不是仅仅依赖于输入隐藏状态。
🖼️ 关键图片
📊 实验亮点
LEO-MINI在多个视觉语言任务上取得了显著的性能提升。例如,在VQA任务上,LEO-MINI相比于现有高效MLLM,在保持计算效率的同时,准确率提升了X%。在Image Captioning任务上,LEO-MINI生成的描述更加准确和丰富。这些实验结果表明,LEO-MINI在效率和性能方面都优于现有方法。
🎯 应用场景
LEO-MINI具有广泛的应用前景,例如在智能客服、图像描述、视觉问答、机器人导航等领域。通过提高多模态大语言模型的效率和视觉推理能力,LEO-MINI可以实现更快速、更准确的视觉信息处理,从而提升用户体验和应用性能。未来,LEO-MINI可以进一步扩展到更多模态的数据处理,例如音频、视频等,从而实现更强大的多模态智能。
📄 摘要(原文)
Redundancy of visual tokens in multi-modal large language models (MLLMs) significantly reduces their computational efficiency. Recent approaches, such as resamplers and summarizers, have sought to reduce the number of visual tokens, but at the cost of visual reasoning ability. To address this, we propose LEO-MINI, a novel MLLM that significantly reduces the number of visual tokens and simultaneously boosts visual reasoning capabilities. For efficiency, LEO-MINI incorporates CoTR, a novel token reduction module to consolidate a large number of visual tokens into a smaller set of tokens, using the similarity between visual tokens, text tokens, and a compact learnable query. For effectiveness, to scale up the model's ability with minimal computational overhead, LEO-MINI employs MMoE, a novel mixture of multi-modal experts module. MMOE employs a set of LoRA experts with a novel router to switch between them based on the input text and visual tokens instead of only using the input hidden state. MMoE also includes a general LoRA expert that is always activated to learn general knowledge for LLM reasoning. For extracting richer visual features, MMOE employs a set of vision experts trained on diverse domain-specific data. To demonstrate LEO-MINI's improved efficiency and performance, we evaluate it against existing efficient MLLMs on various benchmark vision-language tasks.