M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering

作者: Yanshu Li, Yi Cao, Hongyang He, Qisen Cheng, Xiang Fu, Xi Xiao, Tianyang Wang, Ruixiang Tang

分类: cs.CV, cs.AI

发布日期: 2025-04-06 (更新: 2025-08-26)

备注: COLM 2025, 30 pages, 10 figures, 16 tables

💡 一句话要点

提出M$^2$IV，通过表征工程实现高效细粒度的多模态上下文学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 上下文学习 表征工程 视觉语言模型 知识蒸馏

📋 核心要点

多模态上下文学习受限于输入token数量和跨模态推理的复杂性，难以有效提取示例中的模式。
M$^2$IV通过可学习的多模态上下文向量注入模型残差流，替代token级示例，实现高效学习。
实验表明，M$^2$IV在多种任务和模型上均优于现有方法，平均准确率提升3.74%，并显著降低token开销。

📝 摘要（中文）

多模态上下文学习(ICL)使大型视觉语言模型(LVLMs)能够通过多个用户提供的示例适应新任务，而无需更新任何模型参数。然而，其有效性受到多模态输入token密集型特性和跨模态小样本推理复杂性的限制，这阻碍了LVLMs从示例中提取有用的模式。为了解决这些挑战，我们提出了一种新的表征工程方法 extbf{M$^2$IV}，它用一组可学习的多模态上下文向量直接注入到LVLMs的残差流中，取代了显式的token级示例。通过分析多头注意力(MHA)和多层感知机(MLP)在ICL过程中的不同作用，我们设计了一种训练策略，使M$^2$IV能够执行细粒度的语义提炼和鲁棒的跨模态表征学习。M$^2$IV不仅提高了各种任务和LVLMs的性能，而且显著降低了token开销，从而能够优雅地扩展到多样本场景。为了进一步提高可用性，我们引入了 extbf{VLibrary}，一个存储训练好的M$^2$IVs的仓库，用于灵活的检索和注入。借助VLibrary，用户可以以满足不同需求的定制方式引导预训练的LVLMs。大量的实验表明，M$^2$IV始终优于vanilla ICL和先前的表征工程基线，平均准确率提高了3.74％，并且在整体效率方面有了显著提高。

🔬 方法详解

问题定义：现有的多模态上下文学习方法依赖于大量的token级示例，导致计算开销大，效率低，并且难以从复杂的跨模态关系中提取有效信息。尤其是在多样本场景下，token数量的增加会显著降低模型的性能。因此，如何减少token开销，同时保持甚至提升模型的性能，是本文要解决的核心问题。

核心思路：本文的核心思路是用一组可学习的多模态上下文向量来代替显式的token级示例。这些向量直接注入到LVLMs的残差流中，从而避免了处理大量token的开销。通过训练这些向量，模型可以学习到有效的跨模态表征，从而提高上下文学习的效率和性能。这种方法类似于知识蒸馏，将token级示例中的知识提炼到一组向量中。

技术框架：M$^2$IV的技术框架主要包括两个部分：一是多模态上下文向量的生成和训练，二是将这些向量注入到LVLMs的残差流中。首先，使用一个训练集来学习多模态上下文向量。然后，通过分析多头注意力(MHA)和多层感知机(MLP)在ICL过程中的不同作用，设计了一种训练策略，使M$^2$IV能够执行细粒度的语义提炼和鲁棒的跨模态表征学习。最后，将训练好的向量存储在VLibrary中，用户可以根据需要检索和注入这些向量。

关键创新：M$^2$IV的关键创新在于使用可学习的多模态上下文向量来代替显式的token级示例。这种方法不仅减少了token开销，而且提高了上下文学习的效率和性能。此外，通过分析MHA和MLP在ICL过程中的不同作用，设计了一种针对性的训练策略，进一步提高了模型的性能。VLibrary的引入也使得用户可以方便地使用和管理这些向量。

关键设计：M$^2$IV的关键设计包括：1) 多模态上下文向量的维度和数量；2) 向量注入的位置（残差流的不同层）；3) 训练策略，包括损失函数的设计和优化算法的选择。论文中可能使用了对比学习损失或类似的损失函数来训练这些向量，以确保它们能够捕捉到有效的跨模态关系。具体的网络结构和参数设置需要在论文中查找。

🖼️ 关键图片

📊 实验亮点

实验结果表明，M$^2$IV在多个多模态任务上均优于vanilla ICL和先前的表征工程基线，平均准确率提高了3.74%。此外，M$^2$IV显著降低了token开销，使得模型能够优雅地扩展到多样本场景。VLibrary的引入也使得用户可以方便地使用和管理这些向量。

🎯 应用场景

M$^2$IV可应用于各种需要多模态上下文学习的场景，例如图像描述生成、视觉问答、多模态对话等。该方法能够显著降低计算成本，提高模型效率，尤其适用于资源受限的设备或需要处理大量数据的场景。VLibrary的引入也使得用户可以方便地定制和共享预训练的上下文向量，从而加速多模态应用开发。

📄 摘要（原文）

Multimodal in-context learning (ICL) equips Large Vision-language Models (LVLMs) with the ability to adapt to new tasks via multiple user-provided demonstrations, without requiring any model parameter updates. However, its effectiveness is constrained by the token-intensive nature of multimodal inputs and the complexity of cross-modal few-shot reasoning, which together hinder LVLMs from extracting useful patterns from demonstrations. To address these challenges, we propose \textbf{M$^2$IV}, a novel representation engineering approach that replaces explicit token-level demonstrations with a set of learnable Multimodal In-context Vectors directly injected into the residual streams of LVLMs. By analyzing the distinct roles of multi-head attention (MHA) and multi-layer perceptrons (MLP) in the ICL process, we design a training strategy that enables M$^2$IV to perform fine-grained semantic distillation and robust cross-modal representation learning. M$^2$IV not only improves performance across diverse tasks and LVLMs but also significantly reduces token overhead, enabling graceful scaling to many-shot scenarios. To further enhance usability, we introduce \textbf{VLibrary}, a repository that stores trained M$^2$IVs for flexible retrieval and injection. With VLibrary, users can steer pre-trained LVLMs in a customized manner that meets diverse requirements. Extensive experiments demonstrate that M$^2$IV consistently outperforms vanilla ICL and prior representation engineering baselines, achieving an average accuracy gain of 3.74\% with substantial improvements in overall efficiency.

M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理