LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
作者: Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Zhucun Xue, Yong Liu, Xiang Bai
分类: cs.CV
发布日期: 2024-10-21 (更新: 2025-07-03)
备注: ICCV'25
🔗 代码/项目: GITHUB
💡 一句话要点
LLaVA-KD:一种用于蒸馏多模态大语言模型的框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 知识蒸馏 大型语言模型 视觉语言模型 模型压缩 迁移学习 表征学习
📋 核心要点
- 大型多模态模型计算成本高昂,难以在资源受限场景部署,小型模型性能则显著下降。
- LLaVA-KD框架通过多模态蒸馏和关系蒸馏,将大型模型的知识迁移到小型模型。
- 三阶段训练方案,包括蒸馏预训练、监督微调和蒸馏微调,充分挖掘蒸馏策略的潜力。
📝 摘要(中文)
大型语言模型(LLMs)的成功推动了多模态大型语言模型(MLLMs)的发展,以实现视觉和语言的统一理解。然而,大规模MLLMs(l-MLLMs)不断增长的模型规模和计算复杂度限制了它们在资源受限场景中的应用。虽然小规模MLLMs(s-MLLMs)旨在降低计算成本,但它们通常会遭受性能下降。为了缓解这一限制,我们提出了一种新颖的LLaVA-KD框架,用于将知识从l-MLLMs迁移到s-MLLMs。具体来说,我们引入了多模态蒸馏(MDist)来迁移教师模型在视觉和语言模态上的鲁棒表示,以及关系蒸馏(RDist)来迁移教师模型捕获视觉token关系的能力。此外,我们提出了一个三阶段训练方案,以充分利用所提出的蒸馏策略的潜力:1) 蒸馏预训练,以加强s-MLLMs中视觉-语言表示之间的对齐;2) 监督微调,使s-MLLMs具备多模态理解能力;3) 蒸馏微调,以完善s-MLLM的知识。我们的方法在不改变模型架构的情况下显著提高了s-MLLMs的性能。大量的实验和消融研究验证了每个提出的组件的有效性。
🔬 方法详解
问题定义:论文旨在解决大型多模态语言模型(l-MLLMs)计算成本高,难以在资源受限场景部署的问题。现有的小型多模态语言模型(s-MLLMs)虽然降低了计算成本,但性能显著下降,无法满足实际应用需求。
核心思路:论文的核心思路是通过知识蒸馏,将大型模型的知识迁移到小型模型,从而在不显著增加计算成本的前提下,提升小型模型的性能。具体而言,论文提出了多模态蒸馏(MDist)和关系蒸馏(RDist)两种蒸馏方法,分别迁移大型模型的模态表示能力和视觉token关系建模能力。
技术框架:LLaVA-KD框架包含三个主要阶段:1) 蒸馏预训练:利用多模态蒸馏(MDist)加强小型模型中视觉-语言表示之间的对齐。2) 监督微调:使用监督学习方法,使小型模型具备多模态理解能力。3) 蒸馏微调:利用关系蒸馏(RDist)进一步完善小型模型的知识。整个框架旨在逐步提升小型模型的性能,使其逼近大型模型的水平。
关键创新:论文的关键创新在于提出了多模态蒸馏(MDist)和关系蒸馏(RDist)两种新的蒸馏方法。MDist关注视觉和语言模态的表示迁移,RDist关注视觉token之间的关系建模能力迁移。这两种方法能够更全面地将大型模型的知识迁移到小型模型。
关键设计:在多模态蒸馏(MDist)中,论文可能使用了对比学习损失或KL散度等方法,来促使小型模型的模态表示与大型模型对齐。在关系蒸馏(RDist)中,论文可能使用了图神经网络或注意力机制等方法,来建模视觉token之间的关系,并将其迁移到小型模型。具体的损失函数和网络结构细节需要在论文中进一步确认。
🖼️ 关键图片
📊 实验亮点
论文通过大量实验验证了LLaVA-KD框架的有效性。实验结果表明,在不改变模型架构的情况下,该方法能够显著提高小型多模态模型的性能。具体的性能提升幅度需要在论文中进一步确认。此外,消融研究验证了多模态蒸馏(MDist)和关系蒸馏(RDist)的有效性。
🎯 应用场景
该研究成果可应用于资源受限的场景,例如移动设备、嵌入式系统和边缘计算设备。通过将大型多模态模型的知识迁移到小型模型,可以在这些设备上实现高性能的多模态理解和生成任务,例如智能助手、图像识别和视频分析等。该研究还有助于推动多模态人工智能技术在更广泛领域的应用。
📄 摘要(原文)
The success of Large Language Models (LLMs) has inspired the development of Multimodal Large Language Models (MLLMs) for unified understanding of vision and language. However, the increasing model size and computational complexity of large-scale MLLMs (l-MLLMs) limit their use in resource-constrained scenarios. Although small-scale MLLMs (s-MLLMs) are designed to reduce computational costs, they typically suffer from performance degradation. To mitigate this limitation, we propose a novel LLaVA-KD framework to transfer knowledge from l-MLLMs to s-MLLMs. Specifically, we introduce Multimodal Distillation (MDist) to transfer teacher model's robust representations across both visual and linguistic modalities, and Relation Distillation (RDist) to transfer teacher model's ability to capture visual token relationships. Additionally, we propose a three-stage training scheme to fully exploit the potential of the proposed distillation strategy: 1) Distilled Pre-Training to strengthen the alignment between visual-linguistic representations in s-MLLMs, 2) Supervised Fine-Tuning to equip the s-MLLMs with multimodal understanding capacity, and 3) Distilled Fine-Tuning to refine s-MLLM's knowledge. Our approach significantly improves s-MLLMs performance without altering the model architecture. Extensive experiments and ablation studies validate the effectiveness of each proposed component. Code will be available at https://github.com/Fantasyele/LLaVA-KD.