Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup

作者: Maolin Wang, Yao Zhao, Jiajia Liu, Jingdong Chen, Chenyi Zhuang, Jinjie Gu, Ruocheng Guo, Xiangyu Zhao

分类: cs.AI

发布日期: 2023-12-10 (更新: 2024-06-25)

🔗 代码/项目: GITHUB

💡 一句话要点

蚂蚁集团提出基于剪枝与蒸馏的多阶段压缩方法，用于压缩大型多模态模型AntGMM。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态模型压缩 剪枝 知识蒸馏 绿色AI 广告审核

📋 核心要点

大型多模态模型部署面临延迟高、碳排放量大的挑战，与绿色AI理念相悖。
论文提出多阶段压缩策略，包括小样本训练、多阶段剪枝和先进的蒸馏损失设计。
实验表明，该方法在降低延迟的同时保持了在线性能，并显著降低了电力消耗。

📝 摘要（中文）

本文介绍了一种新颖的多阶段压缩策略，用于蚂蚁集团自研的大型多模态模型AntGMM。该方法的核心在于三个方面：使用小规模训练样本、通过多阶段剪枝解决多层次冗余问题，以及引入先进的蒸馏损失函数设计。研究人员构建了一个来自支付宝真实场景的多模态广告审核数据集（MAAD），并通过实验验证了该策略的可靠性。该策略已在支付宝的真实多模态广告审核场景中成功应用三个月（自2023年9月起），显著降低了延迟（从700ms降至90ms），同时保持了在线性能，仅有轻微的性能下降。此外，与直接部署AntGMM相比，压缩后的模型预计每年可减少约7500万千瓦时的电力消耗，体现了对绿色AI的承诺。代码和MAAD数据集将在审核后公开。

🔬 方法详解

问题定义：论文旨在解决大型多模态模型（LMMs）部署时面临的延迟高、能耗大的问题。现有方法难以在保证性能的同时，有效压缩模型规模，从而限制了LMMs在实际场景中的应用，尤其是在对延迟敏感的在线服务中。

核心思路：论文的核心思路是通过多阶段的剪枝和蒸馏，逐步去除模型中的冗余信息，同时利用小样本训练和精心设计的损失函数，保证压缩后的模型能够保持甚至提升性能。这种方法旨在平衡模型大小、推理速度和精度，使其更适合部署在资源受限的环境中。

技术框架：该方法采用多阶段压缩框架，主要包括以下几个阶段：1) 小样本训练：使用少量数据进行预训练或微调，降低计算成本。2) 多阶段剪枝：逐步去除模型中不重要的连接或神经元，降低模型复杂度。3) 知识蒸馏：利用原始大模型（教师模型）的知识来指导压缩后的小模型（学生模型）的训练，提高小模型的性能。

关键创新：该方法的关键创新在于多阶段剪枝策略和先进的蒸馏损失函数设计。多阶段剪枝能够更精细地去除模型中的冗余，避免一次性剪枝可能造成的性能损失。蒸馏损失函数的设计则能够更有效地将教师模型的知识传递给学生模型，提高学生模型的泛化能力。

关键设计：在剪枝方面，论文可能采用了基于重要性的剪枝方法，例如基于权重幅度或梯度信息的剪枝。在蒸馏方面，可能采用了多种损失函数的组合，例如知识蒸馏损失、特征蒸馏损失和关系蒸馏损失，以更全面地传递教师模型的知识。具体的参数设置和网络结构细节需要在公开的代码中进一步分析。

📊 实验亮点

实验结果表明，该方法在支付宝的真实多模态广告审核场景中取得了显著效果。延迟从700ms降低到90ms，大幅提升了推理速度。同时，在线性能仅有轻微下降，保证了用户体验。此外，压缩后的模型预计每年可减少约7500万千瓦时的电力消耗，体现了良好的节能效果。

🎯 应用场景

该研究成果可广泛应用于各种需要部署大型多模态模型的场景，例如智能客服、金融风控、广告推荐等。通过降低模型延迟和能耗，可以提升用户体验，降低运营成本，并促进绿色AI的发展。尤其是在移动端或边缘设备上部署LMMs时，该方法具有重要的应用价值。

📄 摘要（原文）

The deployment of Large Multimodal Models (LMMs) within AntGroup has significantly advanced multimodal tasks in payment, security, and advertising, notably enhancing advertisement audition tasks in Alipay. However, the deployment of such sizable models introduces challenges, particularly in increased latency and carbon emissions, which are antithetical to the ideals of Green AI. This paper introduces a novel multi-stage compression strategy for our proprietary LLM, AntGMM. Our methodology pivots on three main aspects: employing small training sample sizes, addressing multi-level redundancy through multi-stage pruning, and introducing an advanced distillation loss design. In our research, we constructed a dataset, the Multimodal Advertisement Audition Dataset (MAAD), from real-world scenarios within Alipay, and conducted experiments to validate the reliability of our proposed strategy. Furthermore, the effectiveness of our strategy is evident in its operational success in Alipay's real-world multimodal advertisement audition for three months from September 2023. Notably, our approach achieved a substantial reduction in latency, decreasing it from 700ms to 90ms, while maintaining online performance with only a slight performance decrease. Moreover, our compressed model is estimated to reduce electricity consumption by approximately 75 million kWh annually compared to the direct deployment of AntGMM, demonstrating our commitment to green AI initiatives. We will publicly release our code and the MAAD dataset after some reviews\footnote{https://github.com/MorinW/AntGMM$_$Pruning}.

Large Multimodal Model Compression via Efficient Pruning and Distillation at AntGroup

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册