Gated Delta Networks: Improving Mamba2 with Delta Rule

📄 arXiv: 2412.06464v3 📥 PDF

作者: Songlin Yang, Jan Kautz, Ali Hatamizadeh

分类: cs.CL, cs.LG

发布日期: 2024-12-09 (更新: 2025-03-06)

备注: ICLR 2025 camera ready


💡 一句话要点

提出Gated Delta Networks,通过门控Delta规则改进Mamba2,提升长序列建模能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 线性Transformer 长序列建模 门控机制 Delta规则 Mamba2 并行训练 长上下文理解 自适应内存

📋 核心要点

  1. 线性Transformer在长序列建模中面临检索和长上下文理解的挑战,现有方法在内存控制和精确更新方面存在不足。
  2. 论文提出门控Delta规则,结合门控机制的快速擦除能力和Delta规则的精确更新能力,实现更有效的内存管理。
  3. Gated DeltaNet在多个基准测试中超越Mamba2和DeltaNet,并通过混合架构进一步提升训练效率和任务性能。

📝 摘要(中文)

线性Transformer作为标准Transformer的有效替代方案备受关注,但其在检索和长上下文任务中的性能受到限制。为了解决这些限制,最近的研究探索了两种不同的机制:用于自适应内存控制的门控和用于精确内存修改的delta更新规则。我们观察到这些机制是互补的:门控能够快速擦除内存,而delta规则有助于有针对性的更新。基于这一洞察,我们引入了门控delta规则,并开发了一种针对现代硬件优化的并行训练算法。我们提出的架构Gated DeltaNet在包括语言建模、常识推理、上下文检索、长度外推和长上下文理解等多个基准测试中,始终优于现有的模型,如Mamba2和DeltaNet。我们通过开发混合架构来进一步提高性能,这些混合架构将Gated DeltaNet层与滑动窗口注意力或Mamba2层相结合,从而提高了训练效率和任务性能。

🔬 方法详解

问题定义:线性Transformer在处理长序列时,面临着信息检索和长上下文理解的挑战。现有的方法,如Mamba2和DeltaNet,虽然在一定程度上缓解了这些问题,但在内存控制的自适应性和内存更新的精确性方面仍有不足,导致模型在复杂任务中的性能受限。

核心思路:论文的核心思路是将门控机制和Delta更新规则相结合。门控机制允许模型快速擦除不相关的内存信息,从而提高模型的效率和减少冗余计算。Delta更新规则则允许模型对内存进行精确的修改,从而更好地捕捉序列中的细微变化和长期依赖关系。通过结合这两种机制,模型可以更有效地管理和利用内存,从而提高在长序列任务中的性能。

技术框架:Gated DeltaNet的整体架构基于线性Transformer,并引入了门控Delta规则。该架构包含多个Gated DeltaNet层,每一层都包含一个门控机制和一个Delta更新模块。门控机制控制信息的流动,决定哪些信息需要保留,哪些信息需要擦除。Delta更新模块则根据输入信息对内存进行精确的修改。此外,论文还提出了一个并行训练算法,以充分利用现代硬件的计算能力。为了进一步提高性能,论文还探索了混合架构,将Gated DeltaNet层与滑动窗口注意力或Mamba2层相结合。

关键创新:论文最重要的技术创新点是门控Delta规则。与传统的Delta规则相比,门控Delta规则引入了一个门控机制,允许模型根据输入信息自适应地调整更新幅度。这使得模型能够更有效地管理内存,并更好地捕捉序列中的长期依赖关系。此外,论文提出的并行训练算法也提高了模型的训练效率。

关键设计:Gated DeltaNet的关键设计包括门控机制的具体实现、Delta更新模块的结构以及并行训练算法的细节。门控机制可以使用sigmoid函数或其他激活函数来实现,用于控制信息的流动。Delta更新模块可以使用线性变换或其他非线性变换来实现,用于对内存进行精确的修改。并行训练算法则需要仔细设计,以避免数据竞争和梯度消失等问题。此外,混合架构的设计也需要考虑不同层之间的兼容性和协同作用。

🖼️ 关键图片

img_0

📊 实验亮点

Gated DeltaNet在语言建模、常识推理、上下文检索、长度外推和长上下文理解等多个基准测试中,始终优于Mamba2和DeltaNet。例如,在长上下文理解任务中,Gated DeltaNet取得了显著的性能提升,表明其在处理长序列方面具有更强的能力。混合架构的引入进一步提高了训练效率和任务性能。

🎯 应用场景

Gated Delta Networks在长序列建模方面具有显著优势,可广泛应用于自然语言处理、语音识别、视频分析等领域。例如,在机器翻译中,可以处理更长的句子,提高翻译质量;在语音识别中,可以更好地捕捉语音信号中的长期依赖关系,提高识别准确率;在视频分析中,可以更好地理解视频内容,实现更精确的视频分类和检索。

📄 摘要(原文)

Linear Transformers have gained attention as efficient alternatives to standard Transformers, but their performance in retrieval and long-context tasks has been limited. To address these limitations, recent work has explored two distinct mechanisms: gating for adaptive memory control and the delta update rule for precise memory modifications. We observe that these mechanisms are complementary: gating enables rapid memory erasure while the delta rule facilitates targeted updates. Building on this insight, we introduce the gated delta rule and develop a parallel training algorithm optimized for modern hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses existing models like Mamba2 and DeltaNet across multiple benchmarks, including language modeling, common-sense reasoning, in-context retrieval, length extrapolation, and long-context understanding. We further enhance performance by developing hybrid architectures that combine Gated DeltaNet layers with sliding window attention or Mamba2 layers, achieving both improved training efficiency and superior task performance.