SODA: Semi On-Policy Black-Box Distillation for Large Language Models
作者: Xiwen Chen, Jingjing Wang, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hejian Sang, Zhipeng Wang, Alborz Geramifard, Feng Luo
分类: cs.LG, cs.CL
发布日期: 2026-04-07
💡 一句话要点
SODA:面向大语言模型的半在线黑盒蒸馏方法,提升效率与稳定性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识蒸馏 大语言模型 半在线学习 对比学习 模型压缩
📋 核心要点
- 现有黑盒知识蒸馏方法在效率和稳定性之间存在权衡,离线方法效果差,在线方法不稳定且计算成本高。
- SODA利用教师模型和学生模型的能力差距,通过对比教师的优质输出和学生模型的静态劣质输出来进行蒸馏。
- 实验表明,SODA在保证蒸馏质量的同时,显著提升了训练速度,降低了内存消耗,并避免了对抗训练的不稳定性。
📝 摘要(中文)
针对大语言模型的黑盒知识蒸馏面临着严格的权衡。简单的离线策略方法难以纠正学生模型固有的错误。完全在线策略方法虽然通过对抗训练解决了这个问题,但引入了训练不稳定性和巨大的计算开销。为了解决这个困境,我们提出了SODA(具有对齐的半在线蒸馏),这是一种高效的替代方案,其动机是前沿教师模型和小型基础模型之间固有的能力差距。由于紧凑的学生模型的自然零样本响应几乎严格劣于强大的教师模型的目标,我们可以通过将教师模型的最佳响应与学生模型输出的一次性静态快照配对来构建高效的对比信号。这表明,让小型学生模型暴露于其自身的静态劣质行为足以实现高质量的分布对齐,从而消除了对昂贵的动态rollout和脆弱的对抗平衡的需求。在四个紧凑的Qwen2.5和Llama-3模型上的广泛评估验证了这种半在线策略范式。SODA在16个基准测试结果中的15个上匹配或优于最先进的方法。更重要的是,它在实现卓越蒸馏质量的同时,训练速度提高了10倍,峰值GPU内存消耗减少了27%,并完全消除了对抗不稳定性。
🔬 方法详解
问题定义:现有的大语言模型黑盒知识蒸馏方法面临效率和稳定性的挑战。离线蒸馏方法(如序列级知识蒸馏)难以纠正学生模型自身的错误,导致蒸馏效果不佳。而完全在线的蒸馏方法(如生成对抗蒸馏)虽然能通过对抗训练提升效果,但引入了训练不稳定性和极高的计算开销,限制了其应用。
核心思路:SODA的核心思路是利用教师模型和学生模型之间的能力差距,构建一个高效且稳定的蒸馏框架。由于学生模型的能力远弱于教师模型,其初始输出通常质量较差。因此,可以将教师模型的优质输出与学生模型的静态输出进行对比,形成对比学习的信号,引导学生模型学习教师模型的知识。
技术框架:SODA的整体框架包括以下几个关键步骤:1. 使用教师模型生成高质量的目标输出。2. 使用学生模型生成一次性的静态输出快照。3. 构建对比损失函数,将教师模型的输出作为正例,学生模型的静态输出作为负例。4. 使用对比损失函数训练学生模型,使其学习教师模型的知识。
关键创新:SODA的关键创新在于其半在线的蒸馏策略。与完全在线的方法不同,SODA不需要动态地生成学生模型的输出,而是使用一次性的静态快照。这大大降低了计算开销,并避免了对抗训练带来的不稳定性。同时,SODA利用了教师模型和学生模型之间的能力差距,构建了高效的对比学习信号,提升了蒸馏效果。
关键设计:SODA的关键设计包括:1. 使用对比损失函数来衡量教师模型和学生模型输出之间的差异。2. 使用静态的学生模型输出快照作为负例,避免了动态生成带来的计算开销和不稳定性。3. 通过调整对比损失函数的权重,可以平衡蒸馏的效率和效果。具体的损失函数形式和权重设置需要根据具体的任务和模型进行调整。
🖼️ 关键图片
📊 实验亮点
SODA在四个紧凑的Qwen2.5和Llama-3模型上进行了广泛的评估,结果表明,SODA在16个基准测试结果中的15个上匹配或优于最先进的方法。更重要的是,SODA在实现卓越蒸馏质量的同时,训练速度提高了10倍,峰值GPU内存消耗减少了27%,并完全消除了对抗不稳定性。这些结果充分证明了SODA方法的有效性和优越性。
🎯 应用场景
SODA方法可应用于各种需要将大型语言模型知识迁移到小型模型上的场景,例如移动设备上的智能助手、资源受限的边缘计算设备等。该方法能够显著降低模型大小和计算复杂度,同时保持较高的性能,具有广泛的应用前景和实际价值。未来,SODA可以进一步扩展到多模态模型的蒸馏,以及更复杂的知识迁移任务。
📄 摘要(原文)
Black-box knowledge distillation for large language models presents a strict trade-off. Simple off-policy methods (e.g., sequence-level knowledge distillation) struggle to correct the student's inherent errors. Fully on-policy methods (e.g., Generative Adversarial Distillation) solve this via adversarial training but introduce well-known training instability and crippling computational overhead. To address this dilemma, we propose SODA (Semi On-policy Distillation with Alignment), a highly efficient alternative motivated by the inherent capability gap between frontier teachers and much smaller base models. Because a compact student model's natural, zero-shot responses are almost strictly inferior to the powerful teacher's targets, we can construct a highly effective contrastive signal simply by pairing the teacher's optimal response with a one-time static snapshot of the student's outputs. This demonstrates that exposing the small student to its own static inferior behaviors is sufficient for high-quality distribution alignment, eliminating the need for costly dynamic rollouts and fragile adversarial balancing. Extensive evaluations across four compact Qwen2.5 and Llama-3 models validate this semi on-policy paradigm. SODA matches or outperforms the state-of-the-art methods on 15 out of 16 benchmark results. More importantly, it achieves this superior distillation quality while training 10 times faster, consuming 27% less peak GPU memory, and completely eliminating adversarial instability.