Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

作者: Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej

分类: cs.CL, cs.AI

发布日期: 2026-03-12

💡 一句话要点

Bielik-Minitron-7B：面向波兰语，通过结构化剪枝与知识蒸馏压缩大型语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型压缩 结构化剪枝 知识蒸馏 波兰语 模型优化

📋 核心要点

现有大型语言模型参数量巨大，部署成本高昂，尤其是在资源受限的欧洲语言场景下。
该论文提出了一种基于结构化剪枝和知识蒸馏的两阶段压缩方法，有效降低模型参数量。
实验结果表明，压缩后的Bielik-Minitron-7B模型在保持性能的同时，推理速度提升高达50%。

📝 摘要（中文）

本报告详细介绍了Bielik-Minitron-7B的创建过程，这是一个压缩后的73.5亿参数模型，是Bielik-11B-v3.0模型的变体，专门为欧洲语言优化。通过利用受NVIDIA Minitron方法启发的两阶段压缩方法，我们结合了结构化混合剪枝和知识蒸馏，将模型的参数数量从110.4亿减少到73.5亿，减少了33.4%。我们使用NVIDIA Model Optimizer进行结构剪枝，并使用NVIDIA NeMo框架进行基于logits的蒸馏以恢复质量。在蒸馏之后，该模型经过了严格的对齐流程，包括监督微调（SFT）、直接偏好优化（DPO-P）和强化学习（GRPO）。我们最终的模型成功恢复了约90%的基线模型性能，同时提供了高达50%的推理速度提升。这种方法展示了一种高效的途径，可以为代表性不足的语言创建语言模型，在降低推理部署成本的同时保持原始模型质量。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在计算资源有限的环境中部署的问题，特别是针对波兰语等欧洲语言。现有LLM参数量巨大，推理成本高，难以在低资源设备上高效运行。因此，需要一种有效的方法来压缩模型，同时保持其性能。

核心思路：论文的核心思路是结合结构化剪枝和知识蒸馏，在不显著降低模型性能的前提下，减少模型的参数量。结构化剪枝用于移除模型中不重要的连接，而知识蒸馏则用于将原始模型的知识迁移到压缩后的模型中，以弥补剪枝带来的性能损失。

技术框架：整体框架包含两个主要阶段：1) 结构化剪枝：使用NVIDIA Model Optimizer对Bielik-11B-v3.0模型进行结构化混合剪枝，减少模型参数量。2) 知识蒸馏：使用NVIDIA NeMo框架，通过logit-based蒸馏将原始模型的知识迁移到剪枝后的模型。随后，进行监督微调（SFT）、直接偏好优化（DPO-P）和强化学习（GRPO）进行模型对齐。

关键创新：该论文的关键创新在于将结构化剪枝和知识蒸馏相结合，并针对波兰语等欧洲语言进行了优化。通过两阶段压缩方法，在显著降低模型参数量的同时，尽可能地保持了原始模型的性能。此外，论文还采用了特定的对齐流程（SFT、DPO-P、GRPO）来进一步提升模型性能。

关键设计：论文使用了NVIDIA Model Optimizer进行结构化剪枝，具体剪枝策略未知。知识蒸馏采用logit-based蒸馏，损失函数未知。对齐流程中，SFT、DPO-P和GRPO的具体实现细节未知。这些细节可能影响最终模型的性能。

🖼️ 关键图片

📊 实验亮点

Bielik-Minitron-7B模型通过结构化剪枝和知识蒸馏，将参数量从110.4亿减少到73.5亿，减少了33.4%。同时，该模型成功恢复了约90%的基线模型性能，并提供了高达50%的推理速度提升。这些结果表明，该方法在压缩大型语言模型的同时，能够有效地保持模型性能。

🎯 应用场景

该研究成果可应用于各种需要低延迟、低功耗的自然语言处理任务，尤其是在波兰语等欧洲语言的场景下。例如，可以部署在移动设备、嵌入式系统或边缘计算设备上，用于智能客服、机器翻译、文本摘要等应用。该方法为资源受限语言的LLM部署提供了一种可行的解决方案。

📄 摘要（原文）

This report details the creation of Bielik-Minitron-7B, a compressed 7.35B parameter version of the Bielik-11B-v3.0 model, specifically optimized for European languages. By leveraging a two-stage compression methodology inspired by the NVIDIA Minitron approach, we combined structured hybrid pruning and knowledge distillation to reduce the model's parameter count by 33.4%, from 11.04B to 7.35B. We utilized the NVIDIA Model Optimizer for structural pruning and the NVIDIA NeMo Framework for logit-based distillation for quality recovery. Following distillation, the model underwent a rigorous alignment pipeline consisting of Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO-P), and Reinforcement Learning (GRPO). Our final model successfully recovered approximately 90% of the baseline model's performance while providing up to 50% inference speedup. This approach demonstrates an efficient pathway to create language models for less-represented languages, preserving the original model quality while reducing inference deployment costs.

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理