When Does Sparsity Mitigate the Curse of Depth in LLMs
作者: Dilxat Muhtar, Xinyuan Song, Sebastian Pokutta, Max Zimmer, Nico Pelleriti, Thomas Hofmann, Shiwei Liu
分类: cs.CL
发布日期: 2026-03-16
备注: 32 pages, 29 figures
🔗 代码/项目: GITHUB
💡 一句话要点
揭示LLM深度利用率瓶颈,提出稀疏性缓解深度诅咒的机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 深度学习 稀疏性 深度诅咒 方差控制
📋 核心要点
- 现有LLM存在深度诅咒,深层利用率低,影响模型性能,主要原因是Pre-Layer Normalization导致方差累积。
- 论文提出稀疏性可以调节方差传播,从而提高LLM的深度利用率,包括隐式稀疏性和显式稀疏性。
- 实验表明,稀疏性通过减少输出方差和促进功能分化来提高层利用率,下游任务准确率提升4.6%。
📝 摘要(中文)
最近的研究表明,大型语言模型(LLM)存在深度诅咒现象,即较深层对学习和表征的贡献不如较浅层。这种利用不足与Pre-Layer Normalization中方差累积增长有关,这可能导致深层模块接近恒等变换。本文证明,稀疏性除了提高效率外,还可以调节方差传播,从而提高深度利用率。我们的研究涵盖两种稀疏性来源:(i)隐式稀疏性,源于训练和数据条件,包括权重衰减引起的权重稀疏性和长上下文输入引起的注意力稀疏性;(ii)显式稀疏性,由架构设计强制执行,包括Grouped-Query Attention中的键/值共享稀疏性和Mixture-of-Experts中的专家激活稀疏性。通过受控的深度缩放实验和有针对性的层有效性干预,我们充分支持了这一论点。在各种设置中,我们观察到一致的关系:稀疏性通过减少输出方差和促进功能分化来提高层利用率。最终,我们将我们的发现提炼成一个实用的经验法则,用于训练深度有效的LLM,在下游任务上产生了显著的4.6%的准确率提升。我们的结果表明,稀疏性作为一种关键但以前被忽视的机制,可以有效地扩展LLM的深度,并且这种稀疏性自然地来自于标准的设计选择。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的“深度诅咒”问题,即随着模型层数的增加,深层网络的贡献逐渐减小,导致模型整体性能提升受限。现有方法难以有效利用深层网络的能力,主要痛点在于Pre-Layer Normalization导致方差累积,使得深层模块趋近于恒等变换,丧失了学习能力。
核心思路:论文的核心思路是利用稀疏性来缓解深度诅咒。作者认为,稀疏性不仅可以提高计算效率,更重要的是,它可以作为一种调节器,控制方差在网络中的传播,从而防止深层模块退化为恒等变换,提高深度利用率。这种思路基于观察到稀疏性可以减少输出方差,并促进不同层之间的功能分化。
技术框架:论文的研究框架主要包括以下几个部分:1) 分析隐式稀疏性,包括权重衰减和长上下文输入带来的稀疏性;2) 研究显式稀疏性,包括Grouped-Query Attention和Mixture-of-Experts中的稀疏性;3) 通过受控的深度缩放实验和层有效性干预,验证稀疏性对深度利用率的影响;4) 基于实验结果,总结出一个实用的经验法则,用于训练深度有效的LLM。
关键创新:论文最重要的技术创新点在于揭示了稀疏性在缓解LLM深度诅咒中的关键作用。以往的研究主要关注稀疏性在提高计算效率方面的作用,而忽略了其在调节方差传播、提高深度利用率方面的潜力。论文首次将稀疏性与深度利用率联系起来,并提供了充分的实验证据。与现有方法相比,该研究强调了稀疏性作为一种内在机制,可以有效提升LLM的深度扩展能力。
关键设计:论文的关键设计包括:1) 区分隐式和显式稀疏性,并分别进行研究;2) 设计受控的深度缩放实验,通过改变模型深度和稀疏度,观察其对性能的影响;3) 采用层有效性干预方法,评估不同层对模型性能的贡献;4) 基于实验结果,提出一个实用的经验法则,指导LLM的训练。具体的参数设置、损失函数和网络结构等细节,取决于具体的实验设置和模型架构,例如,权重衰减系数、Grouped-Query Attention的分组数量、Mixture-of-Experts的专家数量等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,稀疏性可以显著提高LLM的深度利用率,并在下游任务上取得显著的性能提升。例如,通过应用论文提出的经验法则,在下游任务上获得了4.6%的准确率提升。这些结果表明,稀疏性是一种有效的深度扩展机制,可以帮助LLM更好地利用深层网络的能力。
🎯 应用场景
该研究成果可应用于各种需要深度扩展的大型语言模型,例如机器翻译、文本生成、对话系统等。通过引入或优化稀疏性,可以有效提升模型的性能和效率,降低计算成本,并促进更深层次的知识表示和推理。未来的研究可以进一步探索不同类型的稀疏性对深度利用率的影响,并开发更有效的稀疏化方法。
📄 摘要(原文)
Recent work has demonstrated the curse of depth in large language models (LLMs), where later layers contribute less to learning and representation than earlier layers. Such under-utilization is linked to the accumulated growth of variance in Pre-Layer Normalization, which can push deep blocks toward near-identity behavior. In this paper, we demonstrate that, sparsity, beyond enabling efficiency, acts as a regulator of variance propagation and thereby improves depth utilization. Our investigation covers two sources of sparsity: (i) implicit sparsity, which emerges from training and data conditions, including weight sparsity induced by weight decay and attention sparsity induced by long context inputs; and (ii) explicit sparsity, which is enforced by architectural design, including key/value-sharing sparsity in Grouped-Query Attention and expert-activation sparsity in Mixtureof-Experts. Our claim is thoroughly supported by controlled depth-scaling experiments and targeted layer effectiveness interventions. Across settings, we observe a consistent relationship: sparsity improves layer utilization by reducing output variance and promoting functional differentiation. We eventually distill our findings into a practical rule-of-thumb recipe for training deptheffective LLMs, yielding a notable 4.6% accuracy improvement on downstream tasks. Our results reveal sparsity, arising naturally from standard design choices, as a key yet previously overlooked mechanism for effective depth scaling in LLMs. Code is available at https://github.com/pUmpKin-Co/SparsityAndCoD.