Dynamic Linear Attention
作者: Xin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang
分类: cs.CL, cs.AI
发布日期: 2026-06-09
备注: Accepted by ICML 2026
💡 一句话要点
提出动态线性注意力机制以解决长上下文表示能力不足的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态线性注意力 长上下文处理 信息感知合并 容量受限记忆 自然语言处理
📋 核心要点
- 现有的多状态线性注意力方法无法适应令牌重要性的动态变化,导致信息丢失和错误累积。
- 本文提出的DLA框架通过动态状态合并和容量受限的记忆建模,提升了长上下文的表示能力。
- 在16个数据集的实验中,DLA显示出显著的性能提升,超越了当前的最先进模型。
📝 摘要(中文)
大型语言模型(LLMs)在处理长上下文时受到标准注意力机制的平方复杂度限制,因此需要采用具有亚平方成本的线性注意力机制。现有的多状态线性注意力方法依赖于固定的状态合并策略,无法适应动态变化的令牌重要性,导致关键信息的丢失和长序列中的错误累积。为了解决这一限制,本文提出了动态线性注意力(DLA),它引入了信息感知的动态状态合并和容量受限的记忆建模,能够在保持高分辨率表示的同时有效控制内存增长。实验结果表明,DLA在多个数据集上优于现有最先进的方法。
🔬 方法详解
问题定义:本文旨在解决现有多状态线性注意力方法在动态令牌重要性变化下的适应性不足问题。这些方法依赖固定的状态合并策略,导致关键信息的丢失和长序列中的错误累积。
核心思路:DLA框架通过信息感知的动态状态合并,依据令牌级信息变化自适应地确定状态边界,从而在语义转变附近保留高分辨率表示,同时在稳定区域进行有效汇总。
技术框架:DLA的整体架构包括两个主要模块:信息感知动态状态合并和容量受限的记忆建模。前者负责动态调整状态边界,后者则通过选择性合并低信息状态来控制内存增长。
关键创新:DLA的核心创新在于其动态状态合并策略,能够根据信息变化灵活调整状态合并方式,与传统固定策略相比,显著提升了表示能力和适应性。
关键设计:DLA采用固定大小的时间顺序状态缓存,通过选择性合并相邻的低信息状态来控制内存的增长,确保信息损失最小化。
🖼️ 关键图片
📊 实验亮点
在16个数据集的评估中,DLA在多个任务上超越了当前最先进的线性注意力模型,显示出显著的性能提升,具体提升幅度达到XX%(具体数据待补充)。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、长文本理解和对话系统等。通过提升长上下文的表示能力,DLA能够在多种任务中提供更准确的结果,具有重要的实际价值和未来影响。
📄 摘要(原文)
The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.