Caracal: Causal Architecture via Spectral Mixing
作者: Bingzheng Gan, Tianyi Zhang, Yusu Li, Jing Huang, Wei Shi, Yangkai Ding, Tao Yu
分类: cs.LG, cs.AI
发布日期: 2026-04-30
备注: Accepted by ICML 2026
💡 一句话要点
提出Caracal以解决长序列建模中的注意力计算瓶颈
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长序列建模 傅里叶变换 自回归模型 计算效率 多头注意力 模型可移植性 自然语言处理
📋 核心要点
- 现有大型语言模型在处理长序列时,注意力机制的计算复杂度呈二次增长,导致效率低下。
- Caracal通过引入多头傅里叶模块,利用快速傅里叶变换实现序列混合,显著降低计算复杂度。
- 实验结果显示,Caracal在长序列建模上与传统Transformer和SSM模型相比,性能表现相当,且具备更好的可扩展性。
📝 摘要(中文)
大型语言模型在处理长序列时受到注意力机制的二次计算复杂度和位置编码限制的制约。为此,本文提出了一种新颖的架构Caracal,使用参数高效的多头傅里叶模块(MHF)替代传统注意力机制。主要贡献包括利用快速傅里叶变换(FFT)进行序列混合,应用频域因果掩蔽技术以增强自回归能力,以及使用标准库操作确保模型的可移植性。评估结果表明,Caracal在性能上与Transformer和SSM基线模型具有竞争力,为高效的长序列建模提供了一条可扩展且简便的路径。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在处理长序列时的计算复杂度问题,现有方法主要依赖于注意力机制,导致效率低下和资源消耗大。
核心思路:Caracal的核心思路是用多头傅里叶模块替代传统的注意力机制,利用快速傅里叶变换(FFT)实现序列混合,从而降低计算复杂度至$ ext{O}(L ext{log} L)$。
技术框架:Caracal的整体架构包括三个主要模块:1) 多头傅里叶模块用于序列混合;2) 频域因果掩蔽技术实现自回归能力;3) 标准库操作确保模型的可移植性。
关键创新:最重要的创新在于引入频域因果掩蔽技术,通过不对称填充和截断克服了傅里叶生成模型的自回归能力限制,与现有依赖硬件特定实现的高效模型相比,Caracal具有更好的通用性。
关键设计:在设计中,Caracal采用了标准库操作,避免了对特定硬件的依赖,确保了模型的可移植性和易用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Caracal在长序列建模任务中表现出色,其性能与传统的Transformer和SSM基线模型相当,且在计算效率上有显著提升,展示了$ ext{O}(L ext{log} L)$的复杂度优势,提供了更为高效的解决方案。
🎯 应用场景
Caracal的研究成果在自然语言处理、长文本生成以及其他需要处理长序列的任务中具有广泛的应用潜力。其高效的计算能力和可移植性使得在资源受限的环境中也能实现高性能的模型部署,推动了长序列建模技术的发展。
📄 摘要(原文)
The scalability of Large Language Models to long sequences is hindered by the quadratic cost of attention and the limitations of positional encodings. To address these, we introduce Caracal, a novel architecture that replaces attention with a parameter-efficient, $\mathcal{O}(L \log L)$ Multi-Head Fourier (MHF) module. Our contributions are threefold: (1) We leverage the Fast Fourier Transform (FFT) for sequence mixing, inherently addressing both bottlenecks mentioned above. (2) We apply a frequency-domain causal masking technique that enforces autoregressive capabilities via asymmetric padding and truncation, overcoming a critical barrier for Fourier-based generative models. (3) Unlike efficient models relying on hardware-specific implementations (e.g., Mamba), we uses standard library operators. This ensures robust portability, eliminating common deployment barriers. Evaluations demonstrate that Caracal performs competitively with Transformer and SSM baselines, offering a scalable and simple pathway for efficient long-sequence modeling. Code is available in Appendix.