DND: Boosting Large Language Models with Dynamic Nested Depth

📄 arXiv: 2510.11001v3 📥 PDF

作者: Tieyuan Chen, Xiaodong Chen, Haoxing Chen, Zhenzhong Lan, Weiyao Lin, Jianguo Li

分类: cs.CL, cs.AI

发布日期: 2025-10-13 (更新: 2026-01-27)

备注: Accepted by ICLR 2026


💡 一句话要点

DND:通过动态嵌套深度提升大型语言模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动态嵌套深度 token选择 模型优化 计算效率 后训练 路由器 Transformer

📋 核心要点

  1. 现有LLM对所有token同等处理,忽略了token难度的差异,导致计算冗余和性能瓶颈。
  2. DND通过动态选择关键token进行嵌套深度处理,集中计算资源于困难token,提高效率。
  3. 实验表明,DND在少量参数和计算量增加下,显著提升了Qwen3-1.7B和Qwen3-30B-A3B的性能。

📝 摘要(中文)

本文提出了一种名为动态嵌套深度(DND)的新方法,该方法通过以嵌套深度的方式重新处理关键token,从而提高现有大型语言模型(LLM)的性能。具体来说,在给定的Transformer层结束时,DND使用一个路由器识别更关键的token,并将它们反馈以进行额外的处理,从而有效地“审查”困难的token,同时避免对容易的token进行冗余计算。动态选择机制通过两种新策略进行精确控制:一种是控制损失的路由器,以增强token选择的可区分性;另一种是阈值控制方案,以确保选择的稳定性。我们通过在后训练阶段将DND直接集成到预训练的稠密和MoE模型中,证明了其有效性。在各种基准测试中,这种方法以最小的参数和计算量增加,将稠密Qwen3-1.7B的性能提高了1.88%,将MoE Qwen3-30B-A3B的性能提高了0.87%。

🔬 方法详解

问题定义:大型语言模型在处理文本时,对所有token都进行相同的处理,没有区分token的难易程度。这种做法导致了对简单token的冗余计算,降低了模型的效率,并且限制了模型对复杂token的处理能力,从而影响了整体性能。现有方法缺乏针对性,无法有效利用计算资源。

核心思路:DND的核心思路是动态地选择对模型来说更重要的(或者说更“困难”的)token,并对这些token进行额外的处理。通过这种方式,模型可以将更多的计算资源集中在那些需要更多关注的token上,从而提高模型的整体性能。这种“嵌套深度”的处理方式允许模型对困难token进行更深入的分析和理解。

技术框架:DND方法主要包含以下几个阶段:1) 在Transformer层的输出端,使用一个路由器(Router)来评估每个token的重要性或难度。2) 根据路由器的评估结果,选择一部分被认为是“关键”的token。3) 将这些被选中的token反馈到Transformer层,进行额外的处理。4) 通过损失函数和阈值控制,优化路由器的选择策略,确保选择的token既具有区分性又具有稳定性。

关键创新:DND的关键创新在于其动态选择和嵌套深度处理机制。与传统的对所有token进行相同处理的方法不同,DND能够根据token的难度动态地调整计算资源分配。此外,DND通过路由器控制损失和阈值控制方案,实现了对token选择的精确控制,保证了选择的稳定性和有效性。这种动态调整机制是与现有方法的本质区别。

关键设计:DND的关键设计包括:1) 路由器(Router):用于评估token的重要性,可以是一个小型神经网络。2) 路由器控制损失:用于优化路由器的选择策略,鼓励路由器选择更具区分性的token。3) 阈值控制方案:用于确保选择的token数量稳定,避免选择过多或过少的token。4) 嵌套深度:即对选中的token进行额外处理的次数,可以根据实际情况进行调整。具体实现细节(如路由器的网络结构、损失函数的具体形式、阈值的设定方法等)可能需要根据具体的模型和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DND能够有效提升大型语言模型的性能。具体来说,在Qwen3-1.7B模型上,DND实现了1.88%的性能提升;在Qwen3-30B-A3B模型上,DND实现了0.87%的性能提升。这些提升是在参数和计算量增加非常小的情况下实现的,证明了DND的效率和有效性。这些结果表明,DND是一种有前景的LLM优化方法。

🎯 应用场景

DND方法可以广泛应用于各种需要大型语言模型的场景,例如文本生成、机器翻译、问答系统、对话系统等。通过提高LLM的效率和性能,DND可以降低计算成本,并提升用户体验。未来,DND可以与其他模型压缩和加速技术相结合,进一步提高LLM的实用性。

📄 摘要(原文)

We introduce Dynamic Nested Depth (DND), a novel method that improves performance for off-the-shelf LLMs by selecting critical tokens to reprocess in a nested depth manner. Specifically, at the end of the given transformer layer, DND identifies more critical tokens with a router and feeds them back for an extra round of processing, effectively ``reviewing" difficult tokens while avoiding redundant computation for easier ones. The dynamic selection mechanism is tailored for precise control via two novel strategies: a router controlling loss to enhance token selection distinguishability, and a threshold control scheme to ensure selection stability. We demonstrate the effectiveness of DND by directly integrating it into pre-trained dense and MoE models during a post-training phase. On diverse benchmarks, this approach boosts the performances of the dense Qwen3-1.7B by 1.88% and the MoE Qwen3-30B-A3B by 0.87%, all with a minimal parameter and computing increase.