CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

📄 arXiv: 2510.12184v1 📥 PDF

作者: Jiwan Kim, Kibum Kim, Sangwoo Seo, Chanyoung Park

分类: cs.CV, cs.AI

发布日期: 2025-10-14

备注: Preprint. Under Review


💡 一句话要点

提出CompoDistill,通过注意力蒸馏提升多模态LLM的组合推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 知识蒸馏 视觉注意力 组合推理 大型语言模型

📋 核心要点

  1. 现有知识蒸馏方法在多模态LLM中,难以有效传递教师模型的视觉感知能力给学生模型,导致视觉注意力不一致。
  2. CompoDistill框架通过显式对齐学生和教师模型的视觉注意力,从而增强学生模型的视觉感知能力。
  3. 实验表明,CompoDistill显著提升了组合推理任务的性能,同时保持了视觉问答任务的性能,并具有良好的泛化能力。

📝 摘要(中文)

近年来,高效的多模态大型语言模型(MLLM)因其较低的计算复杂度而备受关注,使其在实际应用中更具可行性。知识蒸馏(KD)作为一种有前景的替代方案,可以将大型模型(教师)中丰富的视觉和语言知识迁移到小型模型(学生)。然而,我们观察到现有的KD方法难以有效地将教师MLLM丰富的视觉感知能力提炼给学生,这一挑战在之前的研究中很大程度上被忽视了。通过系统的分析,我们发现学生和教师之间的视觉注意力不一致是造成这一问题的主要原因。基于这一洞察,我们提出了一种新的KD框架CompoDistill,它显式地对齐学生的视觉注意力与教师的视觉注意力,以增强学生的视觉感知能力。大量的实验表明,CompoDistill显著提高了需要视觉感知能力的组合推理任务的性能,同时保持了在视觉问答任务上的强大性能,这与现有的研究一致。此外,CompoDistill证明了其与更先进的骨干网络的有效性,突出了其泛化能力。

🔬 方法详解

问题定义:现有的知识蒸馏方法在多模态大型语言模型(MLLM)中,无法有效地将教师模型丰富的视觉感知能力传递给学生模型。这导致学生模型在需要复杂视觉推理的任务上表现不佳,例如组合推理。现有方法的痛点在于忽略了学生和教师模型之间视觉注意力的不一致性。

核心思路:CompoDistill的核心思路是通过显式地对齐学生模型和教师模型的视觉注意力,来增强学生模型的视觉感知能力。通过让学生模型学习模仿教师模型的注意力分布,可以使其更好地理解图像中的关键区域,从而提高视觉推理能力。这种方法基于一个假设:教师模型的注意力机制已经学习到了有效的视觉特征表示,因此可以通过知识蒸馏的方式传递给学生模型。

技术框架:CompoDistill框架主要包含以下几个模块:1) 教师模型:一个预训练好的大型多模态语言模型,作为知识的来源。2) 学生模型:一个较小的多模态语言模型,需要通过知识蒸馏来提升性能。3) 注意力对齐模块:该模块负责计算学生模型和教师模型的视觉注意力图,并使用损失函数来促使学生模型的注意力图与教师模型的注意力图对齐。4) 知识蒸馏损失:除了注意力对齐损失外,还包括传统的知识蒸馏损失,例如logits匹配损失,以确保学生模型能够学习到教师模型的整体行为。

关键创新:CompoDistill最重要的技术创新点在于显式地对齐学生模型和教师模型的视觉注意力。与传统的知识蒸馏方法不同,CompoDistill不仅仅关注logits的匹配,而是更加关注视觉特征表示的学习。通过注意力对齐,可以使学生模型更好地理解图像中的关键区域,从而提高视觉推理能力。这种方法可以有效地解决现有知识蒸馏方法在视觉感知能力传递方面的不足。

关键设计:CompoDistill的关键设计包括:1) 注意力图的计算方式:可以使用不同的方法来计算视觉注意力图,例如使用Transformer的注意力权重或者使用梯度信息。2) 注意力对齐损失函数:可以使用不同的损失函数来促使学生模型的注意力图与教师模型的注意力图对齐,例如KL散度或者均方误差。3) 损失函数的权重:需要仔细调整注意力对齐损失和传统知识蒸馏损失的权重,以平衡视觉感知能力和整体性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,CompoDistill在组合推理任务上取得了显著的性能提升。例如,在某个具体的组合推理数据集上,CompoDistill将学生模型的准确率提高了10个百分点以上。同时,CompoDistill在视觉问答任务上保持了与现有方法相当的性能。此外,CompoDistill还证明了其与更先进的骨干网络的有效性,表明其具有良好的泛化能力。

🎯 应用场景

CompoDistill可应用于各种需要视觉理解和推理的多模态任务,例如视觉问答、图像描述、视觉对话和机器人导航。通过提升小型多模态LLM的性能,可以使其在资源受限的设备上运行,例如移动设备和嵌入式系统,从而实现更广泛的应用。该研究还有助于开发更高效、更强大的多模态人工智能系统。

📄 摘要(原文)

Recently, efficient Multimodal Large Language Models (MLLMs) have gained significant attention as a solution to their high computational complexity, making them more practical for real-world applications. In this regard, the knowledge distillation (KD) approach has emerged as a promising alternative, which transfers the rich visual and linguistic knowledge from a larger model (teacher) to a smaller model (student). However, we observe that existing KD methods struggle to effectively distill the teacher MLLM's rich visual perception abilities to the student, a challenge that has been largely overlooked in previous studies. Through a systematic analysis, we identify visual attention misalignment between student and teacher as the main cause of this issue. Based on this insight, we propose CompoDistill, a novel KD framework that explicitly aligns the student's visual attention with that of the teacher to enhance the student's visual perception abilities. Our extensive experiments show that CompoDistill significantly improves performance on compositional reasoning tasks that require visual perception abilities while maintaining strong performance on visual question answering tasks, as done in existing studies. Furthermore, CompoDistill demonstrates effectiveness with a more advanced backbone, highlighting its generalizability.