M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering
作者: Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang
分类: cs.CV, cs.AI
发布日期: 2025-04-06 (更新: 2025-08-26)
备注: COLM 2025, 30 pages, 10 figures, 16 tables
💡 一句话要点
提出M$^2$IV,通过表征工程实现高效细粒度的多模态上下文学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 上下文学习 表征工程 视觉语言模型 知识蒸馏
📋 核心要点
- 多模态上下文学习受限于输入token数量和跨模态推理的复杂性,难以有效提取示例中的模式。
- M$^2$IV通过可学习的多模态上下文向量注入模型残差流,替代token级示例,实现高效学习。
- 实验表明,M$^2$IV在多种任务和模型上均优于现有方法,平均准确率提升3.74%,并显著降低token开销。
📝 摘要(中文)
多模态上下文学习(ICL)使大型视觉语言模型(LVLMs)能够通过多个用户提供的示例适应新任务,而无需更新任何模型参数。然而,其有效性受到多模态输入token密集型特性和跨模态小样本推理复杂性的限制,这阻碍了LVLMs从示例中提取有用的模式。为了解决这些挑战,我们提出了一种新的表征工程方法 extbf{M$^2$IV},它用一组可学习的多模态上下文向量直接注入到LVLMs的残差流中,取代了显式的token级示例。通过分析多头注意力(MHA)和多层感知机(MLP)在ICL过程中的不同作用,我们设计了一种训练策略,使M$^2$IV能够执行细粒度的语义提炼和鲁棒的跨模态表征学习。M$^2$IV不仅提高了各种任务和LVLMs的性能,而且显著降低了token开销,从而能够优雅地扩展到多样本场景。为了进一步提高可用性,我们引入了 extbf{VLibrary},一个存储训练好的M$^2$IVs的仓库,用于灵活的检索和注入。借助VLibrary,用户可以以满足不同需求的定制方式引导预训练的LVLMs。大量的实验表明,M$^2$IV始终优于vanilla ICL和先前的表征工程基线,平均准确率提高了3.74%,并且在整体效率方面有了显著提高。
🔬 方法详解
问题定义:现有的多模态上下文学习方法依赖于大量的token级示例,导致计算开销大,效率低,并且难以从复杂的跨模态关系中提取有效信息。尤其是在多样本场景下,token数量的增加会显著降低模型的性能。因此,如何减少token开销,同时保持甚至提升模型的性能,是本文要解决的核心问题。
核心思路:本文的核心思路是用一组可学习的多模态上下文向量来代替显式的token级示例。这些向量直接注入到LVLMs的残差流中,从而避免了处理大量token的开销。通过训练这些向量,模型可以学习到有效的跨模态表征,从而提高上下文学习的效率和性能。这种方法类似于知识蒸馏,将token级示例中的知识提炼到一组向量中。
技术框架:M$^2$IV的技术框架主要包括两个部分:一是多模态上下文向量的生成和训练,二是将这些向量注入到LVLMs的残差流中。首先,使用一个训练集来学习多模态上下文向量。然后,通过分析多头注意力(MHA)和多层感知机(MLP)在ICL过程中的不同作用,设计了一种训练策略,使M$^2$IV能够执行细粒度的语义提炼和鲁棒的跨模态表征学习。最后,将训练好的向量存储在VLibrary中,用户可以根据需要检索和注入这些向量。
关键创新:M$^2$IV的关键创新在于使用可学习的多模态上下文向量来代替显式的token级示例。这种方法不仅减少了token开销,而且提高了上下文学习的效率和性能。此外,通过分析MHA和MLP在ICL过程中的不同作用,设计了一种针对性的训练策略,进一步提高了模型的性能。VLibrary的引入也使得用户可以方便地使用和管理这些向量。
关键设计:M$^2$IV的关键设计包括:1) 多模态上下文向量的维度和数量;2) 向量注入的位置(残差流的不同层);3) 训练策略,包括损失函数的设计和优化算法的选择。论文中可能使用了对比学习损失或类似的损失函数来训练这些向量,以确保它们能够捕捉到有效的跨模态关系。具体的网络结构和参数设置需要在论文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,M$^2$IV在多个多模态任务上均优于vanilla ICL和先前的表征工程基线,平均准确率提高了3.74%。此外,M$^2$IV显著降低了token开销,使得模型能够优雅地扩展到多样本场景。VLibrary的引入也使得用户可以方便地使用和管理这些向量。
🎯 应用场景
M$^2$IV可应用于各种需要多模态上下文学习的场景,例如图像描述生成、视觉问答、多模态对话等。该方法能够显著降低计算成本,提高模型效率,尤其适用于资源受限的设备或需要处理大量数据的场景。VLibrary的引入也使得用户可以方便地定制和共享预训练的上下文向量,从而加速多模态应用开发。
📄 摘要(原文)
Multimodal in-context learning (ICL) equips Large Vision-language Models (LVLMs) with the ability to adapt to new tasks via multiple user-provided demonstrations, without requiring any model parameter updates. However, its effectiveness is constrained by the token-intensive nature of multimodal inputs and the complexity of cross-modal few-shot reasoning, which together hinder LVLMs from extracting useful patterns from demonstrations. To address these challenges, we propose \textbf{M$^2$IV}, a novel representation engineering approach that replaces explicit token-level demonstrations with a set of learnable Multimodal In-context Vectors directly injected into the residual streams of LVLMs. By analyzing the distinct roles of multi-head attention (MHA) and multi-layer perceptrons (MLP) in the ICL process, we design a training strategy that enables M$^2$IV to perform fine-grained semantic distillation and robust cross-modal representation learning. M$^2$IV not only improves performance across diverse tasks and LVLMs but also significantly reduces token overhead, enabling graceful scaling to many-shot scenarios. To further enhance usability, we introduce \textbf{VLibrary}, a repository that stores trained M$^2$IVs for flexible retrieval and injection. With VLibrary, users can steer pre-trained LVLMs in a customized manner that meets diverse requirements. Extensive experiments demonstrate that M$^2$IV consistently outperforms vanilla ICL and prior representation engineering baselines, achieving an average accuracy gain of 3.74\% with substantial improvements in overall efficiency.