Falcon Mamba: The First Competitive Attention-free 7B Language Model

📄 arXiv: 2410.05355v1 📥 PDF

作者: Jingwei Zuo, Maksim Velikanov, Dhia Eddine Rhaiem, Ilyas Chahed, Younes Belkada, Guillaume Kunsch, Hakim Hacid

分类: cs.CL, cs.AI

发布日期: 2024-10-07

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Falcon Mamba 7B:首个具有竞争力的无注意力7B语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Mamba架构 选择性状态空间模型 长序列建模 高效推理 低内存占用 开源模型

📋 核心要点

  1. 现有的大型语言模型主要依赖Transformer架构,计算复杂度高,长序列处理效率低,内存需求大。
  2. Falcon Mamba 7B采用纯Mamba架构,利用选择性状态空间模型(Selective State Space Models)实现高效的长程依赖建模。
  3. 实验表明,Falcon Mamba 7B在多个基准测试中超越了同等规模的Transformer模型,并在推理速度和内存占用方面具有显著优势。

📝 摘要(中文)

本技术报告介绍了Falcon Mamba 7B,这是一种基于新型Mamba架构的新型基础大型语言模型。Falcon Mamba 7B在精心选择的数据混合上训练了5.8万亿个token。作为一个纯粹的基于Mamba的模型,Falcon Mamba 7B超越了基于Transformer的领先开源模型,如Mistral 7B、Llama3.1 8B和Falcon2 11B。它与Gemma 7B相当,并且优于具有不同架构设计的模型,如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B。根据Open LLM排行榜,目前,Falcon Mamba 7B是文献中同等规模下性能最佳的Mamba模型,超越了现有的Mamba和混合Mamba-Transformer模型。由于其架构,Falcon Mamba 7B在推理时速度明显更快,并且在长序列生成中需要更少的内存。尽管最近的研究表明混合Mamba-Transformer模型优于纯架构设计,但我们证明,即使是纯Mamba设计也可以实现与Transformer和混合设计相似甚至更好的结果。我们根据宽松的许可协议,在https://huggingface.co/tiiuae/falcon-mamba-7b上公开发布了Falcon Mamba 7B实现的权重。

🔬 方法详解

问题定义:现有的大型语言模型主要基于Transformer架构,其核心的自注意力机制在处理长序列时面临计算复杂度高、内存占用大等问题。这限制了模型在需要处理长文本或进行长程依赖建模的任务中的应用。此外,混合Mamba-Transformer模型虽然在一定程度上缓解了这些问题,但架构复杂性较高。

核心思路:Falcon Mamba 7B的核心思路是采用纯Mamba架构,完全摒弃自注意力机制,利用选择性状态空间模型(Selective State Space Models,SSMs)来建模序列中的长程依赖关系。Mamba架构通过动态选择和更新状态,能够更有效地捕捉序列中的关键信息,从而提高模型的性能和效率。

技术框架:Falcon Mamba 7B的整体架构是一个纯粹的Mamba模型,由多个Mamba块堆叠而成。每个Mamba块包含一个选择性状态空间模型,该模型接收输入序列,并根据输入动态地选择和更新其内部状态。模型通过训练来学习如何选择和更新状态,从而捕捉序列中的长程依赖关系。整个模型通过优化交叉熵损失函数进行训练。

关键创新:Falcon Mamba 7B最重要的技术创新在于其纯Mamba架构。与传统的Transformer模型相比,它完全移除了自注意力机制,从而避免了计算复杂度和内存占用问题。与混合Mamba-Transformer模型相比,它简化了模型结构,降低了训练和推理的难度。

关键设计:Falcon Mamba 7B的关键设计包括:1) 精心选择的训练数据混合,包含5.8万亿个token;2) 优化的Mamba块实现,以提高计算效率;3) 适当的正则化策略,以防止过拟合;4) 针对推理速度和内存占用的优化,例如kernel fusion等技术。具体的参数设置和网络结构细节未在论文中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Falcon Mamba 7B在多个基准测试中超越了同等规模的Transformer模型,例如Mistral 7B、Llama3.1 8B和Falcon2 11B。它与Gemma 7B的性能相当,并且优于RecurrentGemma 9B和RWKV-v6 Finch 7B/14B等具有不同架构设计的模型。此外,Falcon Mamba 7B在推理速度和内存占用方面具有显著优势,使其成为一个具有竞争力的选择。

🎯 应用场景

Falcon Mamba 7B具有广泛的应用前景,包括但不限于:长文本生成、代码生成、对话系统、信息检索等。由于其高效的推理速度和低内存占用,它特别适合在资源受限的环境中部署,例如移动设备或边缘计算设备。此外,该模型还可以作为其他自然语言处理任务的基础模型,例如文本分类、情感分析等。

📄 摘要(原文)

In this technical report, we present Falcon Mamba 7B, a new base large language model based on the novel Mamba architecture. Falcon Mamba 7B is trained on 5.8 trillion tokens with carefully selected data mixtures. As a pure Mamba-based model, Falcon Mamba 7B surpasses leading open-weight models based on Transformers, such as Mistral 7B, Llama3.1 8B, and Falcon2 11B. It is on par with Gemma 7B and outperforms models with different architecture designs, such as RecurrentGemma 9B and RWKV-v6 Finch 7B/14B. Currently, Falcon Mamba 7B is the best-performing Mamba model in the literature at this scale, surpassing both existing Mamba and hybrid Mamba-Transformer models, according to the Open LLM Leaderboard. Due to its architecture, Falcon Mamba 7B is significantly faster at inference and requires substantially less memory for long sequence generation. Despite recent studies suggesting that hybrid Mamba-Transformer models outperform pure architecture designs, we demonstrate that even the pure Mamba design can achieve similar, or even superior results compared to the Transformer and hybrid designs. We make the weights of our implementation of Falcon Mamba 7B publicly available on https://huggingface.co/tiiuae/falcon-mamba-7b, under a permissive license.