MAGIC: Multimodal Alignment & Grounding-aware Instruction Coreset for Vision-Language Models

📄 arXiv: 2605.26004v1 📥 PDF

作者: Shristi Das Biswas, Kaushik Roy

分类: cs.CV, cs.CL

发布日期: 2026-05-25


💡 一句话要点

提出MAGIC,一种免训练的coreset选择方法,用于提升视觉-语言模型的多模态指令调优效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 指令调优 Coreset选择 多模态学习 模型压缩

📋 核心要点

  1. 大规模多模态数据集存在冗余和不均衡问题,导致视觉-语言模型指令调优效果受限,简单的子采样方法难以有效。
  2. MAGIC通过多模态增益、桥接相关性和技能神经元签名,构建紧凑且行为忠实的训练子集,无需反向传播和额外训练。
  3. 实验表明,MAGIC在保持或略微提升性能的同时,显著减少了训练时间和计算成本,优于现有子采样方法。

📝 摘要(中文)

大规模多模态语料库日益成为视觉-语言模型(LVLM)指令调优的基础,然而这些数据集包含大量冗余、低视觉依赖以及多模态推理行为覆盖不均衡的样本。因此,均匀子采样或简单的基于分数的选择通常会产生次优的训练子集。我们提出了MAGIC,一种免训练、前向的coreset选择方法,旨在构建紧凑且行为忠实的子集用于多模态指令调优。MAGIC基于从预训练VLM中提取的三个内在信号构建:多模态增益(衡量视觉输入带来的可能性提升)、桥接相关性(捕捉答案token在视觉token上的grounding锐度)和技能神经元签名(通过top激活的前馈神经元表征每个样本的功能计算)。MAGIC在一个三阶段流程中结合这些信号:过滤低增益样本,通过归一化的质量目标对候选样本进行排序,并在离散神经元签名上执行分桶预算分配,以保持潜在的多模态技能覆盖。这种方法避免了反向传播、辅助选择器训练以及连续激活空间中昂贵的聚类,同时保持了效率并易于在现有VLM中部署。在LLaVA-665K和Vision-Flan数据集以及迁移到大型目标模型LLaVA-1.5-7B和-13B的设置中,MAGIC在匹配20%预算的情况下始终优于强大的基线:在LLaVA-665K上实现了相对于完整微调的100.3%的相对性能,在Vision-Flan-186K上实现了101.6%的相对性能,同时减少了73.7%的实际运行时间。

🔬 方法详解

问题定义:论文旨在解决大规模视觉-语言模型(VLM)指令调优中,训练数据冗余、视觉依赖性低以及多模态推理行为覆盖不均衡的问题。现有方法如均匀采样或基于分数的选择,无法有效提取最具信息量的训练子集,导致模型性能提升受限,且计算成本高昂。

核心思路:MAGIC的核心思路是通过分析预训练VLM的内在信号,识别并选择对模型学习最有价值的样本。它利用多模态增益衡量视觉信息的重要性,桥接相关性评估答案与视觉信息的关联程度,技能神经元签名表征样本激活的神经元模式,从而捕捉样本蕴含的多模态技能。通过综合这些信号,MAGIC能够构建一个既紧凑又具有代表性的训练子集。

技术框架:MAGIC包含三个主要阶段:1) 过滤低增益样本:去除视觉信息增益低的样本,减少噪声。2) 候选样本排序:基于归一化的质量目标(综合考虑多模态增益和桥接相关性)对剩余样本进行排序。3) 分桶预算分配:根据技能神经元签名将样本分桶,并在每个桶内分配预算,确保子集覆盖尽可能多的多模态技能。整个流程无需反向传播和额外的选择器训练。

关键创新:MAGIC的关键创新在于提出了一种免训练的coreset选择方法,它不依赖于额外的模型训练或复杂的聚类算法,而是直接利用预训练VLM的内在信号来指导样本选择。这种方法避免了昂贵的计算成本,并提高了选择效率。此外,MAGIC通过技能神经元签名来表征样本的功能计算,从而能够更好地覆盖多模态技能。

关键设计:MAGIC的关键设计包括:1) 多模态增益的计算:通过比较有无视觉输入时模型输出概率的变化来衡量。2) 桥接相关性的计算:通过分析答案token在视觉token上的注意力分布的锐度来评估。3) 技能神经元签名的构建:通过选择top-k激活的前馈神经元来表征样本的功能计算。4) 分桶预算分配策略:根据技能神经元签名的相似性将样本分桶,并在每个桶内分配一定比例的预算,确保子集的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAGIC在LLaVA-665K和Vision-Flan-186K数据集上,使用20%的预算,分别实现了相对于完整微调的100.3%和101.6%的相对性能,同时减少了73.7%的实际运行时间。这表明MAGIC能够在显著降低计算成本的同时,保持甚至略微提升模型性能,优于现有的子采样方法。

🎯 应用场景

MAGIC可应用于各种视觉-语言模型的指令调优场景,尤其是在资源受限的情况下,例如移动设备或边缘计算平台。该方法能够有效降低训练成本,提高模型训练效率,并提升模型在下游任务中的性能。未来,MAGIC可以扩展到其他多模态学习任务,例如视频理解和多模态对话。

📄 摘要(原文)

Instruction tuning of large vision-language models (LVLMs) increasingly depends on massive multimodal corpora, yet these datasets contain samples with substantial redundancy, low visual dependency, and highly imbalanced coverage of multimodal reasoning behaviors. As a result, uniform subsampling or naive score-based selection often yields suboptimal training subsets. We introduce MAGIC, a training-free, forward-only coreset selection method designed to construct compact yet behaviorally faithful subsets for multimodal instruction tuning. MAGIC is built on three intrinsic signals extracted from a pretrained VLM: Multimodal Gain, which measures the likelihood improvement obtained from visual input; Bridging Relevance, which captures the sharpness of answer-token grounding over visual tokens; and Skill-Neuron Signatures, which characterize the functional computation elicited by each sample via top-activated feed-forward neurons. MAGIC combines these signals in a three-stage pipeline: filtering low-gain examples, ranking candidates by a normalized quality objective, and performing bucket-wise budget allocation over discrete neuron signatures to preserve latent multimodal skill coverage. This formulation avoids backpropagation, auxiliary selector training, and expensive clustering in continuous activation spaces, while remaining efficient and easily deployable in existing VLMs. Across LLaVA-665K and Vision-Flan datasets, and transfer settings to large target models, LLaVA-1.5-7B and -13B, MAGIC consistently improves over strong baselines under matched 20% budgets: it achieves 100.3% relative performance to full finetuning on LLaVA-665K and 101.6% relative performance on Vision-Flan-186K, while yielding a 73.7% reduction in wall-clock run time.