CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling

📄 arXiv: 2604.04250 📥 PDF

作者: Dejan Čugalj, Aleksandar Jevremovic

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

CAWN:用于自回归语言建模的连续声波网络,突破Transformer长序列瓶颈。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长序列建模 自回归语言模型 连续声波网络 相位累积 选择性相位共振 线性复杂度 内存效率

📋 核心要点

  1. Transformer自注意力机制在处理长序列时面临计算复杂度呈平方增长的挑战,限制了其应用。
  2. CAWN通过连续声波网络,利用相位累积机制进行序列混合,并引入选择性相位共振机制防止信号衰减。
  3. 实验表明,CAWN在长序列建模中能有效检索目标信息,且VRAM占用稳定,突破了上下文内存瓶颈。

📝 摘要(中文)

本文提出了一种完全连续的序列混合架构——连续声波网络(CAWN)。CAWN通过将隐藏状态投影到多头复数域相位器中,利用因果的、O(L)的相位累积机制实现序列混合,而非离散的基于矩阵的注意力机制。为了防止超长上下文中的信号衰减,引入了双门控选择性相位共振机制,该机制结合了频率相关的保留、通过直通估计的硬阈值门控以及用于捕获短期局部依赖关系的时间语法缓存。此外,使用深度可分离谐波卷积代替标准密集线性投影,以实现最佳空间频率混合,并通过块注意力残差进行深度状态路由。CAWN被扩展到1.5亿参数模型,并利用定制的Triton内核在float32中实现硬件高效的真复数相位累积。该原型通过在1000亿token语料库上的连续流式循环进行训练,并在50亿token的里程碑处进行评估。通过目标语义检索协议进行的实证评估表明,该模型具有强大的词汇获取能力和扩展的显式学习上下文去噪能力。通过利用分块预填充的O(1)状态传递,该模型在严格稳定在8.72 GB的峰值VRAM的情况下,检索了超过2,000,000个token的目标信息,从而在经验上克服了O(L^2)的上下文内存墙。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)依赖于Transformer的自注意力机制,但其计算复杂度随着序列长度呈平方增长,这限制了模型处理超长序列的能力。虽然出现了一些线性时间复杂度的替代方案,例如状态空间模型(SSMs),但它们通常会面临在扩展上下文中信号衰减的问题。

核心思路:CAWN的核心思路是使用连续的声波传播机制来替代离散的矩阵运算,从而实现线性时间复杂度的序列混合。通过将隐藏状态投影到复数域相位器中,并利用相位累积来模拟声波的传播和干涉,从而捕捉序列中的依赖关系。这种方法避免了传统注意力机制的平方复杂度,并且能够更好地处理长序列。

技术框架:CAWN的整体架构包括以下几个主要模块:1) 多头复数域相位器:将隐藏状态投影到多个复数域相位器中,每个相位器负责捕捉序列中不同频率的信息。2) 相位累积:通过因果的相位累积机制,模拟声波的传播和干涉,实现序列混合。3) 选择性相位共振:通过双门控机制,选择性地保留重要的相位信息,防止信号衰减。4) 深度可分离谐波卷积:用于空间频率混合,增强模型的表达能力。5) 块注意力残差:用于深度状态路由,提高模型的训练效率。

关键创新:CAWN最重要的技术创新点在于其完全连续的序列混合架构,它使用相位累积来替代传统的注意力机制,从而实现了线性时间复杂度的序列建模。此外,CAWN还引入了选择性相位共振机制,有效地解决了长序列建模中的信号衰减问题。

关键设计:CAWN的关键设计包括:1) 使用多头复数域相位器来捕捉序列中不同频率的信息。2) 使用频率相关的保留机制来选择性地保留重要的相位信息。3) 使用硬阈值门控和时间语法缓存来捕获短期局部依赖关系。4) 使用深度可分离谐波卷积来增强模型的表达能力。5) 使用定制的Triton内核来优化复数相位累积的计算效率。

📊 实验亮点

CAWN在目标语义检索任务中表现出色,能够跨越2,000,000个token检索目标信息,且峰值VRAM占用稳定在8.72 GB,显著优于传统Transformer模型。这表明CAWN能够有效克服长序列建模中的内存瓶颈,并具有强大的上下文学习能力。

🎯 应用场景

CAWN在需要处理超长序列的语言建模任务中具有广泛的应用前景,例如长文本摘要、对话系统、代码生成等。其突破性的内存效率使得在资源受限的环境中部署大型语言模型成为可能,并为未来的语言模型研究提供了新的方向。

📄 摘要(原文)

Modern Large Language Models (LLMs) rely on Transformer self-attention, which scales quadratically with sequence length. Recent linear-time alternatives, like State Space Models (SSMs), often suffer from signal degradation over extended contexts. We introduce the Continuous Acoustic Wave Network (CAWN), a fully continuous sequence-mixing architecture. Instead of discrete matrix-based attention, CAWN projects hidden states into multi-headed complex-domain phasors, achieving sequence mixing through a causal, $O(L)$ Phase Accumulation mechanism. To prevent signal degradation over ultra-long contexts, we introduce a dual-gated Selective Phase Resonance mechanism incorporating Frequency-Dependent Retention, Hard-Threshold Gating via Straight-Through Estimation, and a Temporal Syntax Cache to capture short-term local dependencies. We also replace standard dense linear projections with Depth-wise Harmonic Convolutions for optimal spatial frequency mixing, augmented by Block Attention Residuals for depth-wise state routing. Scaled to a 150M-parameter model, CAWN utilizes custom Triton kernels for hardware-efficient, true-complex phase accumulation in float32. Trained via a continuous streaming loop on a 100-Billion-token corpus, the prototype is evaluated at a 5-Billion-token milestone. Empirical evaluations via a Targeted Semantic Retrieval protocol demonstrate robust vocabulary acquisition and extended explicitly learned contextual denoising. By leveraging $O(1)$ state-passing via chunked prefill, the model retrieves targeted information across 2,000,000 tokens while strictly plateauing at 8.72 GB of Peak VRAM, empirically overcoming the $O(L^2)$ context memory wall.