Continual LLM Upcycling: A Predictor-Gated Bank-Wise Sparsity Training Recipe for Dense-to-Sparse LLMs

作者: Ruixuan Huang, Jinyuan Shi, Hantao Huang, Yifan Huang, Ziyi Guan, Hao Zeng, Ian En-Hsu Yen, Minghui Yu

分类: cs.CL

发布日期: 2026-06-09

💡 一句话要点

提出预测门控银行稀疏训练方法以优化大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 稀疏训练 持续学习 预测门控 SwiGLU 长上下文处理 模型优化

📋 核心要点

现有的稀疏推理方法往往是在模型训练后进行的，缺乏在训练过程中优化稀疏结构的能力。
论文提出了一种新的训练方法，通过预测门控机制和银行式稀疏策略，在持续训练中实现通道稀疏化。
实验结果表明，该方法在保持模型性能的同时，实现了前馈网络中4倍的稀疏性，并有效修复了长上下文处理中的失败模式。

📝 摘要（中文）

本研究探讨了通过密集到稀疏的持续训练，构建通道稀疏的大型语言模型。以Qwen2.5-8B密集模型为基础，在32K上下文中继续训练，并引入预测门控稀疏SwiGLU前馈网络。针对每个token和层，使用低秩预测器生成前馈网络通道路由logits，并应用银行式top-k规则保留每64通道中的16个通道，从而在前馈网络中实现4倍稀疏性。与后处理稀疏推理方法不同，路由模块被置于主要语言建模路径上并在持续训练中优化，使得密集模型能够转化为面向硬件的稀疏模型。本文报告了架构、训练方法、基准性能及训练经验，并识别出RULER-CWE上的层局部长上下文失败模式，提出单层修复算法显著改善受影响的长度范围。

🔬 方法详解

问题定义：本研究旨在解决现有稀疏推理方法在模型训练后进行优化的局限性，缺乏在训练过程中动态调整稀疏结构的能力。

核心思路：通过引入预测门控机制和银行式稀疏策略，论文提出了一种在持续训练中实现通道稀疏化的新方法，使得密集模型能够有效转化为稀疏模型。

技术框架：整体架构包括一个密集的Qwen2.5-8B模型作为基础，在32K上下文中进行持续训练，使用低秩预测器生成前馈网络的通道路由logits，并通过银行式top-k规则进行通道选择。

关键创新：最重要的创新在于将路由模块集成到主要语言建模路径中，并在训练过程中进行优化，这与传统的后处理稀疏推理方法形成了显著对比。

关键设计：在设计中，采用了低秩预测器来生成路由logits，并通过银行式top-k规则保留通道，确保每64通道中仅保留16个通道，从而实现4倍的稀疏性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，采用预测门控银行稀疏训练方法后，模型在前馈网络中实现了4倍的稀疏性，同时在RULER-CWE基准上显著改善了长上下文处理能力，修复算法有效提升了受影响的长度范围，展现出优越的性能。

🎯 应用场景

该研究的潜在应用场景包括自然语言处理、对话系统和文本生成等领域。通过优化大语言模型的稀疏性，可以在保持性能的同时降低计算资源的消耗，提升模型在边缘设备上的应用能力，具有重要的实际价值和未来影响。

📄 摘要（原文）

We study dense-to-sparse continual training as a way to construct channel-sparse large language models from dense checkpoints. Starting from a Qwen2.5-8B dense backbone, we continue training at 32K context and introduce a predictor-gated sparse SwiGLU FFN in the 32K stage. For each token and layer, we use a low-rank predictor to produce FFN-channel routing logits. We then apply a bank-wise top-k rule to retain 16 channels in every 64-channel bank, yielding 4x sparsity in the FFN intermediate activation. Unlike post-hoc sparse inference methods, the routing module is placed on the main language modeling path and optimized during continual training, enabling the dense model to be upcycled into a hardware-oriented sparse model. We report the architecture, training recipe, benchmark performance, and training lessons. We also identify a layer-local long-context failure mode on RULER-CWE and propose a single-layer repair algorithm that substantially improves the affected length range.

Continual LLM Upcycling: A Predictor-Gated Bank-Wise Sparsity Training Recipe for Dense-to-Sparse LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理