Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language
作者: Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej
分类: cs.CL, cs.AI
发布日期: 2026-03-12
💡 一句话要点
Bielik-Minitron-7B:面向波兰语,通过结构化剪枝与知识蒸馏压缩大型语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型压缩 结构化剪枝 知识蒸馏 波兰语 模型优化
📋 核心要点
- 现有大型语言模型参数量巨大,部署成本高昂,尤其是在资源受限的欧洲语言场景下。
- 该论文提出了一种基于结构化剪枝和知识蒸馏的两阶段压缩方法,有效降低模型参数量。
- 实验结果表明,压缩后的Bielik-Minitron-7B模型在保持性能的同时,推理速度提升高达50%。
📝 摘要(中文)
本报告详细介绍了Bielik-Minitron-7B的创建过程,这是一个压缩后的73.5亿参数模型,是Bielik-11B-v3.0模型的变体,专门为欧洲语言优化。通过利用受NVIDIA Minitron方法启发的两阶段压缩方法,我们结合了结构化混合剪枝和知识蒸馏,将模型的参数数量从110.4亿减少到73.5亿,减少了33.4%。我们使用NVIDIA Model Optimizer进行结构剪枝,并使用NVIDIA NeMo框架进行基于logits的蒸馏以恢复质量。在蒸馏之后,该模型经过了严格的对齐流程,包括监督微调(SFT)、直接偏好优化(DPO-P)和强化学习(GRPO)。我们最终的模型成功恢复了约90%的基线模型性能,同时提供了高达50%的推理速度提升。这种方法展示了一种高效的途径,可以为代表性不足的语言创建语言模型,在降低推理部署成本的同时保持原始模型质量。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在计算资源有限的环境中部署的问题,特别是针对波兰语等欧洲语言。现有LLM参数量巨大,推理成本高,难以在低资源设备上高效运行。因此,需要一种有效的方法来压缩模型,同时保持其性能。
核心思路:论文的核心思路是结合结构化剪枝和知识蒸馏,在不显著降低模型性能的前提下,减少模型的参数量。结构化剪枝用于移除模型中不重要的连接,而知识蒸馏则用于将原始模型的知识迁移到压缩后的模型中,以弥补剪枝带来的性能损失。
技术框架:整体框架包含两个主要阶段:1) 结构化剪枝:使用NVIDIA Model Optimizer对Bielik-11B-v3.0模型进行结构化混合剪枝,减少模型参数量。2) 知识蒸馏:使用NVIDIA NeMo框架,通过logit-based蒸馏将原始模型的知识迁移到剪枝后的模型。随后,进行监督微调(SFT)、直接偏好优化(DPO-P)和强化学习(GRPO)进行模型对齐。
关键创新:该论文的关键创新在于将结构化剪枝和知识蒸馏相结合,并针对波兰语等欧洲语言进行了优化。通过两阶段压缩方法,在显著降低模型参数量的同时,尽可能地保持了原始模型的性能。此外,论文还采用了特定的对齐流程(SFT、DPO-P、GRPO)来进一步提升模型性能。
关键设计:论文使用了NVIDIA Model Optimizer进行结构化剪枝,具体剪枝策略未知。知识蒸馏采用logit-based蒸馏,损失函数未知。对齐流程中,SFT、DPO-P和GRPO的具体实现细节未知。这些细节可能影响最终模型的性能。
🖼️ 关键图片
📊 实验亮点
Bielik-Minitron-7B模型通过结构化剪枝和知识蒸馏,将参数量从110.4亿减少到73.5亿,减少了33.4%。同时,该模型成功恢复了约90%的基线模型性能,并提供了高达50%的推理速度提升。这些结果表明,该方法在压缩大型语言模型的同时,能够有效地保持模型性能。
🎯 应用场景
该研究成果可应用于各种需要低延迟、低功耗的自然语言处理任务,尤其是在波兰语等欧洲语言的场景下。例如,可以部署在移动设备、嵌入式系统或边缘计算设备上,用于智能客服、机器翻译、文本摘要等应用。该方法为资源受限语言的LLM部署提供了一种可行的解决方案。
📄 摘要(原文)
This report details the creation of Bielik-Minitron-7B, a compressed 7.35B parameter version of the Bielik-11B-v3.0 model, specifically optimized for European languages. By leveraging a two-stage compression methodology inspired by the NVIDIA Minitron approach, we combined structured hybrid pruning and knowledge distillation to reduce the model's parameter count by 33.4%, from 11.04B to 7.35B. We utilized the NVIDIA Model Optimizer for structural pruning and the NVIDIA NeMo Framework for logit-based distillation for quality recovery. Following distillation, the model underwent a rigorous alignment pipeline consisting of Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO-P), and Reinforcement Learning (GRPO). Our final model successfully recovered approximately 90% of the baseline model's performance while providing up to 50% inference speedup. This approach demonstrates an efficient pathway to create language models for less-represented languages, preserving the original model quality while reducing inference deployment costs.