DND: Boosting Large Language Models with Dynamic Nested Depth

作者: Tieyuan Chen, Xiaodong Chen, Haoxing Chen, Zhenzhong Lan, Weiyao Lin, Jianguo Li

分类: cs.CL, cs.AI

发布日期: 2025-10-13 (更新: 2026-01-27)

备注: Accepted by ICLR 2026

💡 一句话要点

DND：通过动态嵌套深度提升大型语言模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动态嵌套深度 token选择 模型优化 计算效率 后训练 路由器 Transformer

📋 核心要点

现有LLM对所有token同等处理，忽略了token难度的差异，导致计算冗余和性能瓶颈。
DND通过动态选择关键token进行嵌套深度处理，集中计算资源于困难token，提高效率。
实验表明，DND在少量参数和计算量增加下，显著提升了Qwen3-1.7B和Qwen3-30B-A3B的性能。

📝 摘要（中文）

本文提出了一种名为动态嵌套深度（DND）的新方法，该方法通过以嵌套深度的方式重新处理关键token，从而提高现有大型语言模型（LLM）的性能。具体来说，在给定的Transformer层结束时，DND使用一个路由器识别更关键的token，并将它们反馈以进行额外的处理，从而有效地“审查”困难的token，同时避免对容易的token进行冗余计算。动态选择机制通过两种新策略进行精确控制：一种是控制损失的路由器，以增强token选择的可区分性；另一种是阈值控制方案，以确保选择的稳定性。我们通过在后训练阶段将DND直接集成到预训练的稠密和MoE模型中，证明了其有效性。在各种基准测试中，这种方法以最小的参数和计算量增加，将稠密Qwen3-1.7B的性能提高了1.88%，将MoE Qwen3-30B-A3B的性能提高了0.87%。

🔬 方法详解

问题定义：大型语言模型在处理文本时，对所有token都进行相同的处理，没有区分token的难易程度。这种做法导致了对简单token的冗余计算，降低了模型的效率，并且限制了模型对复杂token的处理能力，从而影响了整体性能。现有方法缺乏针对性，无法有效利用计算资源。

核心思路：DND的核心思路是动态地选择对模型来说更重要的（或者说更“困难”的）token，并对这些token进行额外的处理。通过这种方式，模型可以将更多的计算资源集中在那些需要更多关注的token上，从而提高模型的整体性能。这种“嵌套深度”的处理方式允许模型对困难token进行更深入的分析和理解。

技术框架：DND方法主要包含以下几个阶段：1) 在Transformer层的输出端，使用一个路由器（Router）来评估每个token的重要性或难度。2) 根据路由器的评估结果，选择一部分被认为是“关键”的token。3) 将这些被选中的token反馈到Transformer层，进行额外的处理。4) 通过损失函数和阈值控制，优化路由器的选择策略，确保选择的token既具有区分性又具有稳定性。

关键创新：DND的关键创新在于其动态选择和嵌套深度处理机制。与传统的对所有token进行相同处理的方法不同，DND能够根据token的难度动态地调整计算资源分配。此外，DND通过路由器控制损失和阈值控制方案，实现了对token选择的精确控制，保证了选择的稳定性和有效性。这种动态调整机制是与现有方法的本质区别。

关键设计：DND的关键设计包括：1) 路由器（Router）：用于评估token的重要性，可以是一个小型神经网络。2) 路由器控制损失：用于优化路由器的选择策略，鼓励路由器选择更具区分性的token。3) 阈值控制方案：用于确保选择的token数量稳定，避免选择过多或过少的token。4) 嵌套深度：即对选中的token进行额外处理的次数，可以根据实际情况进行调整。具体实现细节（如路由器的网络结构、损失函数的具体形式、阈值的设定方法等）可能需要根据具体的模型和任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DND能够有效提升大型语言模型的性能。具体来说，在Qwen3-1.7B模型上，DND实现了1.88%的性能提升；在Qwen3-30B-A3B模型上，DND实现了0.87%的性能提升。这些提升是在参数和计算量增加非常小的情况下实现的，证明了DND的效率和有效性。这些结果表明，DND是一种有前景的LLM优化方法。

🎯 应用场景

DND方法可以广泛应用于各种需要大型语言模型的场景，例如文本生成、机器翻译、问答系统、对话系统等。通过提高LLM的效率和性能，DND可以降低计算成本，并提升用户体验。未来，DND可以与其他模型压缩和加速技术相结合，进一步提高LLM的实用性。

📄 摘要（原文）

We introduce Dynamic Nested Depth (DND), a novel method that improves performance for off-the-shelf LLMs by selecting critical tokens to reprocess in a nested depth manner. Specifically, at the end of the given transformer layer, DND identifies more critical tokens with a router and feeds them back for an extra round of processing, effectively ``reviewing" difficult tokens while avoiding redundant computation for easier ones. The dynamic selection mechanism is tailored for precise control via two novel strategies: a router controlling loss to enhance token selection distinguishability, and a threshold control scheme to ensure selection stability. We demonstrate the effectiveness of DND by directly integrating it into pre-trained dense and MoE models during a post-training phase. On diverse benchmarks, this approach boosts the performances of the dense Qwen3-1.7B by 1.88% and the MoE Qwen3-30B-A3B by 0.87%, all with a minimal parameter and computing increase.

DND: Boosting Large Language Models with Dynamic Nested Depth

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理