Continual LLM Upcycling: A Predictor-Gated Bank-Wise Sparsity Training Recipe for Dense-to-Sparse LLMs
作者: Ruixuan Huang, Jinyuan Shi, Hantao Huang, Yifan Huang, Ziyi Guan, Hao Zeng, Ian En-Hsu Yen, Minghui Yu
分类: cs.CL
发布日期: 2026-06-09
💡 一句话要点
提出预测门控银行稀疏训练方法以优化大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 稀疏训练 持续学习 预测门控 SwiGLU 长上下文处理 模型优化
📋 核心要点
- 现有的稀疏推理方法往往是在模型训练后进行的,缺乏在训练过程中优化稀疏结构的能力。
- 论文提出了一种新的训练方法,通过预测门控机制和银行式稀疏策略,在持续训练中实现通道稀疏化。
- 实验结果表明,该方法在保持模型性能的同时,实现了前馈网络中4倍的稀疏性,并有效修复了长上下文处理中的失败模式。
📝 摘要(中文)
本研究探讨了通过密集到稀疏的持续训练,构建通道稀疏的大型语言模型。以Qwen2.5-8B密集模型为基础,在32K上下文中继续训练,并引入预测门控稀疏SwiGLU前馈网络。针对每个token和层,使用低秩预测器生成前馈网络通道路由logits,并应用银行式top-k规则保留每64通道中的16个通道,从而在前馈网络中实现4倍稀疏性。与后处理稀疏推理方法不同,路由模块被置于主要语言建模路径上并在持续训练中优化,使得密集模型能够转化为面向硬件的稀疏模型。本文报告了架构、训练方法、基准性能及训练经验,并识别出RULER-CWE上的层局部长上下文失败模式,提出单层修复算法显著改善受影响的长度范围。
🔬 方法详解
问题定义:本研究旨在解决现有稀疏推理方法在模型训练后进行优化的局限性,缺乏在训练过程中动态调整稀疏结构的能力。
核心思路:通过引入预测门控机制和银行式稀疏策略,论文提出了一种在持续训练中实现通道稀疏化的新方法,使得密集模型能够有效转化为稀疏模型。
技术框架:整体架构包括一个密集的Qwen2.5-8B模型作为基础,在32K上下文中进行持续训练,使用低秩预测器生成前馈网络的通道路由logits,并通过银行式top-k规则进行通道选择。
关键创新:最重要的创新在于将路由模块集成到主要语言建模路径中,并在训练过程中进行优化,这与传统的后处理稀疏推理方法形成了显著对比。
关键设计:在设计中,采用了低秩预测器来生成路由logits,并通过银行式top-k规则保留通道,确保每64通道中仅保留16个通道,从而实现4倍的稀疏性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用预测门控银行稀疏训练方法后,模型在前馈网络中实现了4倍的稀疏性,同时在RULER-CWE基准上显著改善了长上下文处理能力,修复算法有效提升了受影响的长度范围,展现出优越的性能。
🎯 应用场景
该研究的潜在应用场景包括自然语言处理、对话系统和文本生成等领域。通过优化大语言模型的稀疏性,可以在保持性能的同时降低计算资源的消耗,提升模型在边缘设备上的应用能力,具有重要的实际价值和未来影响。
📄 摘要(原文)
We study dense-to-sparse continual training as a way to construct channel-sparse large language models from dense checkpoints. Starting from a Qwen2.5-8B dense backbone, we continue training at 32K context and introduce a predictor-gated sparse SwiGLU FFN in the 32K stage. For each token and layer, we use a low-rank predictor to produce FFN-channel routing logits. We then apply a bank-wise top-k rule to retain 16 channels in every 64-channel bank, yielding 4x sparsity in the FFN intermediate activation. Unlike post-hoc sparse inference methods, the routing module is placed on the main language modeling path and optimized during continual training, enabling the dense model to be upcycled into a hardware-oriented sparse model. We report the architecture, training recipe, benchmark performance, and training lessons. We also identify a layer-local long-context failure mode on RULER-CWE and propose a single-layer repair algorithm that substantially improves the affected length range.