LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
作者: Fangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Lei Zhang, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
分类: cs.CV
发布日期: 2024-08-28 (更新: 2024-10-23)
🔗 代码/项目: GITHUB
💡 一句话要点
LLaVA-MoD:通过MoE知识蒸馏实现小型高效的多模态语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 知识蒸馏 混合专家模型 模型压缩 直接偏好优化
📋 核心要点
- 现有大型多模态语言模型计算成本高昂,难以部署,小型模型性能不足,无法有效利用知识。
- LLaVA-MoD通过MoE架构和渐进式知识迁移策略,在计算效率和模型表达能力之间取得平衡,实现高效知识蒸馏。
- 实验结果表明,LLaVA-MoD在保持低计算成本的同时,显著超越了现有模型,尤其在幻觉抑制方面表现出色。
📝 摘要(中文)
本文提出了LLaVA-MoD,一种新颖的框架,旨在通过从大型多模态语言模型(l-MLLM)中蒸馏知识,从而高效地训练小规模多模态语言模型(s-MLLM)。该方法解决了MLLM蒸馏中的两个基本挑战。首先,通过将稀疏的混合专家(MoE)架构集成到语言模型中,优化了s-MLLM的网络结构,从而在计算效率和模型表达能力之间取得了平衡。其次,提出了一种渐进式知识迁移策略,以确保全面的知识迁移。该策略从模仿蒸馏开始,通过最小化输出分布之间的Kullback-Leibler(KL)散度,使学生模型能够模仿教师网络的理解。在此之后,通过直接偏好优化(DPO)引入偏好蒸馏,关键在于将l-MLLM视为参考模型。在此阶段,s-MLLM区分优劣示例的能力显著增强,超越了l-MLLM,从而产生了一个更好的学生,尤其是在幻觉基准测试中。大量实验表明,LLaVA-MoD在各种多模态基准测试中优于现有模型,同时保持了最少的激活参数和较低的计算成本。值得注意的是,LLaVA-MoD仅使用2B激活参数,在基准测试中平均超过Qwen-VL-Chat-7B 8.8%,仅使用了0.3%的训练数据和23%的可训练参数。这些结果强调了LLaVA-MoD有效从其教师模型中提取全面知识的能力,为开发更高效的MLLM铺平了道路。
🔬 方法详解
问题定义:论文旨在解决如何高效地训练小规模多模态语言模型(s-MLLM)的问题。现有的大型多模态语言模型(l-MLLM)虽然性能强大,但计算资源消耗巨大,难以在资源受限的环境中部署。而直接训练小模型往往性能不足,无法充分利用大型模型的知识。
核心思路:论文的核心思路是通过知识蒸馏,将大型模型的知识迁移到小型模型中。为了提高小型模型的表达能力和效率,引入了混合专家(MoE)架构。同时,采用渐进式知识迁移策略,包括模仿蒸馏和偏好蒸馏,以确保知识的全面迁移,并提升模型对优劣样本的辨别能力。
技术框架:LLaVA-MoD的整体框架包括以下几个主要阶段:1) MoE集成:将MoE架构集成到小型语言模型中,以提高模型容量和表达能力。2) 模仿蒸馏:使用KL散度最小化学生模型和教师模型的输出分布,使学生模型学习教师模型的理解能力。3) 偏好蒸馏:使用直接偏好优化(DPO),将大型模型作为参考,训练学生模型区分优劣样本的能力。4) 评估:在多个多模态基准测试中评估模型的性能。
关键创新:论文的关键创新在于:1) MoE架构在小型多模态模型中的应用:通过MoE架构,在保持计算效率的同时,提高了模型的表达能力。2) 渐进式知识迁移策略:通过模仿蒸馏和偏好蒸馏,实现了知识的全面迁移,并提升了模型对优劣样本的辨别能力。3) 基于DPO的偏好蒸馏:将大型模型作为参考,通过DPO训练学生模型,使其能够超越教师模型,尤其是在幻觉抑制方面。
关键设计:在MoE架构中,专家数量和路由策略是关键参数。在模仿蒸馏中,KL散度的权重需要仔细调整。在偏好蒸馏中,DPO的超参数(如学习率和正则化系数)需要根据具体任务进行调整。损失函数包括KL散度损失(用于模仿蒸馏)和DPO损失(用于偏好蒸馏)。网络结构方面,采用了标准的Transformer架构,并集成了MoE层。
🖼️ 关键图片
📊 实验亮点
LLaVA-MoD在仅使用2B激活参数的情况下,在多个多模态基准测试中平均超过Qwen-VL-Chat-7B 8.8%,并且仅使用了0.3%的训练数据和23%的可训练参数。这表明LLaVA-MoD能够高效地从大型模型中提取知识,并在小型模型上实现卓越的性能。
🎯 应用场景
LLaVA-MoD具有广泛的应用前景,包括移动设备上的智能助手、低功耗机器人、以及其他资源受限的场景。该技术可以促进多模态人工智能在边缘计算设备上的部署,实现更智能、更高效的人机交互。
📄 摘要(原文)
We introduce LLaVA-MoD, a novel framework designed to enable the efficient training of small-scale Multimodal Language Models (s-MLLM) by distilling knowledge from large-scale MLLM (l-MLLM). Our approach tackles two fundamental challenges in MLLM distillation. First, we optimize the network structure of s-MLLM by integrating a sparse Mixture of Experts (MoE) architecture into the language model, striking a balance between computational efficiency and model expressiveness. Second, we propose a progressive knowledge transfer strategy to ensure comprehensive knowledge migration. This strategy begins with mimic distillation, where we minimize the Kullback-Leibler (KL) divergence between output distributions to enable the student model to emulate the teacher network's understanding. Following this, we introduce preference distillation via Direct Preference Optimization (DPO), where the key lies in treating l-MLLM as the reference model. During this phase, the s-MLLM's ability to discriminate between superior and inferior examples is significantly enhanced beyond l-MLLM, leading to a better student that surpasses its teacher, particularly in hallucination benchmarks. Extensive experiments demonstrate that LLaVA-MoD outperforms existing models across various multimodal benchmarks while maintaining a minimal number of activated parameters and low computational costs. Remarkably, LLaVA-MoD, with only 2B activated parameters, surpasses Qwen-VL-Chat-7B by an average of 8.8% across benchmarks, using merely 0.3% of the training data and 23% trainable parameters. These results underscore LLaVA-MoD's ability to effectively distill comprehensive knowledge from its teacher model, paving the way for the development of more efficient MLLMs. The code will be available on: https://github.com/shufangxun/LLaVA-MoD.