Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework
作者: Maolin Wang, Jun Chu, Sicong Xie, Xiaoling Zang, Yao Zhao, Wenliang Zhong, Xiangyu Zhao
分类: cs.CL
发布日期: 2025-07-07
备注: Accepted by KDD 2025
💡 一句话要点
提出EI-BERT框架,通过跨蒸馏实现面向边缘计算的超小型NLP模型压缩。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型压缩 知识蒸馏 边缘计算 自然语言处理 BERT 模型量化 移动设备
📋 核心要点
- 现有NLP模型在边缘设备部署面临内存限制、隐私保护和实时性等多重挑战,需要超小型模型。
- EI-BERT框架通过硬token剪枝、跨蒸馏和参数量化等技术,实现模型的高效压缩和知识迁移。
- 实验表明,EI-BERT获得了1.91MB的超小型BERT模型,并在支付宝边缘推荐系统中成功部署。
📝 摘要(中文)
在移动计算时代,在资源受限的边缘环境中部署高效的自然语言处理(NLP)模型面临着重大挑战,尤其是在需要严格隐私合规性、实时响应和多样化多任务处理能力的环境中。这些挑战对超小型模型提出了根本需求,这些模型需要在各种NLP任务中保持强大的性能,同时遵守严格的内存约束。为此,我们引入了Edge ultra-lIte BERT框架(EI-BERT),并提出了一种新颖的跨蒸馏方法。EI-BERT通过包括硬token剪枝、跨蒸馏和参数量化在内的综合流程有效地压缩模型。具体来说,跨蒸馏方法独特地使教师模型能够理解学生模型的视角,从而通过参数集成和模型之间的相互作用确保有效的知识转移。通过广泛的实验,我们获得了只有1.91 MB的超小型BERT模型,这是迄今为止自然语言理解(NLU)任务中最小的模型。这种超小型模型已成功部署在支付宝生态系统中的多个场景中,展示了实际应用中的显着改进。例如,自2024年1月以来,它已集成到支付宝的实时边缘推荐系统中,目前为该应用程序在840万日活跃设备上的推荐流量提供服务。
🔬 方法详解
问题定义:论文旨在解决在资源受限的边缘设备上部署高性能NLP模型的问题。现有BERT模型体积庞大,难以满足边缘计算对模型大小和推理速度的要求,同时需要兼顾隐私保护和实时响应。因此,如何有效地压缩BERT模型,使其在保持性能的同时,满足边缘设备的资源限制,是本文要解决的核心问题。
核心思路:论文的核心思路是利用跨蒸馏方法,让教师模型从学生模型的角度出发,进行知识迁移。传统蒸馏方法通常是教师模型指导学生模型,而本文提出的跨蒸馏方法,强调教师模型理解学生模型的学习过程,从而更有效地将知识传递给学生模型。这种双向的知识迁移能够更好地保留原始模型的性能,同时实现模型的压缩。
技术框架:EI-BERT框架包含三个主要阶段:硬token剪枝、跨蒸馏和参数量化。首先,通过硬token剪枝减少模型参数量。然后,利用跨蒸馏方法,教师模型和学生模型相互学习,进行知识迁移。最后,通过参数量化进一步压缩模型大小。整个流程旨在实现模型在大小和性能之间的最佳平衡。
关键创新:论文的关键创新在于提出的跨蒸馏方法。与传统的单向蒸馏不同,该方法强调教师模型理解学生模型的学习过程,从而进行更有效的知识迁移。这种双向的知识迁移能够更好地保留原始模型的性能,同时实现模型的压缩。此外,将硬token剪枝、跨蒸馏和参数量化相结合,形成了一个完整的模型压缩流程。
关键设计:在跨蒸馏过程中,论文设计了一种参数集成机制,将教师模型的参数融入到学生模型中,从而实现知识的传递。同时,论文还设计了一种互动的学习机制,让教师模型和学生模型相互学习,共同提高性能。具体的损失函数和网络结构细节在论文中进行了详细描述,但此处未提供具体公式。
🖼️ 关键图片
📊 实验亮点
EI-BERT框架实现了1.91MB的超小型BERT模型,是目前NLU任务中最小的模型。该模型已成功部署在支付宝的实时边缘推荐系统中,为840万日活跃设备提供服务。实验结果表明,该模型在保持较高性能的同时,显著降低了模型大小,验证了该方法的有效性。
🎯 应用场景
该研究成果可广泛应用于各种资源受限的边缘计算场景,例如移动设备上的实时推荐系统、智能客服、语音助手等。通过部署超小型NLP模型,可以在本地进行快速推理,降低网络延迟,保护用户隐私,并提升用户体验。该技术在金融、电商、医疗等领域具有广阔的应用前景。
📄 摘要(原文)
In the era of mobile computing, deploying efficient Natural Language Processing (NLP) models in resource-restricted edge settings presents significant challenges, particularly in environments requiring strict privacy compliance, real-time responsiveness, and diverse multi-tasking capabilities. These challenges create a fundamental need for ultra-compact models that maintain strong performance across various NLP tasks while adhering to stringent memory constraints. To this end, we introduce Edge ultra-lIte BERT framework (EI-BERT) with a novel cross-distillation method. EI-BERT efficiently compresses models through a comprehensive pipeline including hard token pruning, cross-distillation and parameter quantization. Specifically, the cross-distillation method uniquely positions the teacher model to understand the student model's perspective, ensuring efficient knowledge transfer through parameter integration and the mutual interplay between models. Through extensive experiments, we achieve a remarkably compact BERT-based model of only 1.91 MB - the smallest to date for Natural Language Understanding (NLU) tasks. This ultra-compact model has been successfully deployed across multiple scenarios within the Alipay ecosystem, demonstrating significant improvements in real-world applications. For example, it has been integrated into Alipay's live Edge Recommendation system since January 2024, currently serving the app's recommendation traffic across \textbf{8.4 million daily active devices}.