Reasoning-preserved Efficient Distillation of Large Language Models via Activation-aware Initialization

📄 arXiv: 2605.29327v1 📥 PDF

作者: Junlin He, Yihong Tang, Tong Nie, Guilong Li, Binyu Yang, Jinxiao Du, Lijun Sun, Wei Ma

分类: cs.CL, cs.LG

发布日期: 2026-05-28


💡 一句话要点

RED:通过激活感知初始化,高效蒸馏并保持大语言模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 高效蒸馏 推理能力 激活感知初始化 模型压缩

📋 核心要点

  1. 现有高效蒸馏方法在压缩大语言模型时,虽然通用能力表现良好,但多步推理能力显著下降,出现“推理崩溃”现象。
  2. RED方法的核心在于激活感知初始化,将投影矩阵初始化为通道选择矩阵,从而缓解隐藏层表示的有效秩(eRank)崩溃问题。
  3. 实验结果表明,RED方法在Llama和Qwen系列模型上,能够显著恢复推理能力,同时保持较高的训练效率和SOTA的通用能力。

📝 摘要(中文)

高效蒸馏(EDistill)通过结构化剪枝参数和调整轻量级模块来压缩大型语言模型(LLMs),从而实现高训练效率。尽管这些EDistilled LLMs在通用能力基准测试中相对于类似规模的LLMs取得了最先进(SOTA)的性能,但我们发现它们的多步推理能力严重下降,我们称之为推理崩溃。我们系统地分析了推理崩溃的几何起源,并表明基于宽度缩减投影矩阵的SOTA EDistill方法遭受eRank崩溃,其中隐藏表示的有效秩(eRank)下降。我们从理论上解释了随机初始化的投影矩阵的奇异值如何变得不均匀分布,导致eRank崩溃,从而导致token无法区分。为了解决这个问题,我们提出了用于LLMs的RED(推理保持高效蒸馏),它引入了激活感知初始化,以将投影矩阵初始化为通道选择矩阵,从而从理论上缓解eRank崩溃。在Llama和Qwen系列上的实验表明,RED在保持高训练效率和SOTA通用能力的同时,显著恢复了推理能力。

🔬 方法详解

问题定义:论文旨在解决高效蒸馏大语言模型时出现的推理能力崩溃问题。现有基于宽度缩减投影矩阵的蒸馏方法,虽然在通用能力上表现良好,但会造成隐藏层表示的有效秩(eRank)下降,导致模型难以区分不同的token,从而影响多步推理能力。

核心思路:论文的核心思路是通过改进投影矩阵的初始化方式来缓解eRank崩溃。具体而言,论文提出激活感知初始化方法,使得初始化的投影矩阵更接近于通道选择矩阵,从而保持隐藏层表示的有效秩,并提升模型的推理能力。

技术框架:RED方法主要包含以下几个步骤:首先,使用激活感知初始化方法初始化投影矩阵;然后,使用蒸馏损失函数训练轻量级模块;最后,评估模型在通用能力和推理能力上的表现。整个框架旨在在保持训练效率的同时,提升蒸馏后模型的推理能力。

关键创新:RED方法的关键创新在于激活感知初始化。与随机初始化不同,该方法根据激活值来初始化投影矩阵,使其更接近于通道选择矩阵。这种初始化方式能够有效地缓解eRank崩溃,从而提升模型的推理能力。

关键设计:激活感知初始化的具体实现是,首先计算每个通道的激活值,然后根据激活值的大小选择一部分通道,并将投影矩阵初始化为选择这些通道的通道选择矩阵。损失函数方面,可以使用标准的蒸馏损失函数,例如KL散度损失或MSE损失。网络结构方面,RED方法可以应用于各种基于宽度缩减投影矩阵的蒸馏方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RED方法在Llama和Qwen系列模型上,能够显著恢复推理能力,同时保持较高的训练效率和SOTA的通用能力。具体而言,RED方法在推理任务上的性能提升幅度超过了其他基线方法,证明了其有效性。

🎯 应用场景

RED方法可应用于各种需要压缩大语言模型并保持其推理能力的场景,例如移动设备上的部署、资源受限环境下的应用、以及需要快速推理的应用。该方法能够提升压缩后模型的推理能力,使其在实际应用中更具竞争力,并降低部署成本。

📄 摘要(原文)

Efficient Distillation (EDistill) compresses large language models (LLMs) by structured pruning parameters and tuning lightweight modules with high training efficiency. Although these EDistilled LLMs achieve state-of-the-art (SOTA) performance on general ability benchmarks relative to similarly sized LLMs, we identify a severe degradation in their multi-step reasoning ability, which we term reasoning collapse. We systematically analyze the geometric origins of reasoning collapse and show that the SOTA EDistill method based on width-reducing projection matrices suffers from eRank collapse, in which the effective rank (eRank) of hidden representations drops. We theoretically explain how singular values of randomly initialized projection matrices become unevenly distributed, leading to eRank collapse and thus token indistinguishability. To address this issue, we propose RED (Reasoning-preserved Efficient Distillation) for LLMs, which introduces activation-aware initialization to initialize projection matrices as channel-selection matrices, thus theoretically mitigating eRank collapse. Experiments on Llama and Qwen series demonstrate that RED substantially recovers reasoning while maintaining high training efficiency and SOTA general ability.