xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

作者: Maximilian Beck, Korbinian Pöppel, Phillip Lippe, Richard Kurle, Patrick M. Blies, Günter Klambauer, Sebastian Böck, Sepp Hochreiter

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-03-17

备注: Code available at: https://github.com/NX-AI/xlstm and https://github.com/NX-AI/xlstm-jax

💡 一句话要点

提出xLSTM 7B，一种快速高效的循环LLM，适用于大规模推理任务。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 循环神经网络 xLSTM 高效推理 模型优化

📋 核心要点

现有LLM推理速度慢，效率低，难以满足大规模推理任务的需求。
提出xLSTM 7B，结合xLSTM架构优势和优化，实现快速高效推理。
实验表明，xLSTM 7B在性能上与同规模LLM相当，推理速度和效率显著优于Llama和Mamba。

📝 摘要（中文）

大型语言模型（LLMs）在推理、数学和编码问题上的突破得益于推理时的大量计算资源投入。因此，推理速度是LLM架构最关键的属性之一，对高效快速推理的LLM的需求日益增长。最近，基于xLSTM架构的LLM作为Transformer的强大替代方案出现，它提供了随序列长度线性扩展的计算复杂度和恒定的内存使用量，这对于高效推理来说都是非常理想的属性。然而，这种基于xLSTM的LLM尚未扩展到更大的模型，并且在推理速度和效率方面进行评估和比较。在这项工作中，我们推出了xLSTM 7B，一个70亿参数的LLM，它结合了xLSTM的架构优势和针对快速高效推理的优化。实验表明，xLSTM 7B在下游任务上实现了与其他类似规模LLM相当的性能，同时提供了比基于Llama和Mamba的LLM显著更快的推理速度和更高的效率。这些结果确立了xLSTM 7B作为最快和最高效的7B LLM的地位，为需要大量测试时计算的任务提供了一个解决方案。我们的工作突出了xLSTM作为构建在大量使用LLM推理之上的方法的基础架构的潜力。我们的模型权重、模型代码和训练代码都是开源的。

🔬 方法详解

问题定义：现有的大型语言模型（LLMs）在推理时需要大量的计算资源，导致推理速度慢，效率低。这限制了它们在需要大量测试时计算的任务中的应用。Transformer架构虽然强大，但在处理长序列时计算复杂度高，内存占用大。因此，需要一种既能保持性能，又能提高推理速度和效率的LLM架构。

核心思路：论文的核心思路是利用xLSTM架构的优势，即线性计算复杂度和恒定内存使用量，来构建一个快速高效的LLM。xLSTM通过其独特的门控机制和状态更新方式，能够有效地处理长序列，并减少计算和内存开销。此外，论文还针对推理过程进行了优化，进一步提高了推理速度。

技术框架：xLSTM 7B的整体架构基于xLSTM，但具体细节未知。可以推测其包含以下主要模块：输入嵌入层、xLSTM层、输出层。xLSTM层是核心模块，负责序列建模和状态更新。输入嵌入层将输入文本转换为向量表示，输出层将xLSTM层的输出转换为最终的预测结果。

关键创新：最重要的技术创新点是xLSTM架构本身，它与传统的Transformer架构不同，采用循环结构，能够以线性复杂度处理长序列。此外，论文还针对推理过程进行了优化，但具体的优化方法未知。xLSTM的关键在于其门控机制和状态更新方式，这使得它能够有效地捕捉序列中的长期依赖关系，并减少计算和内存开销。

关键设计：论文中没有详细描述xLSTM 7B的关键设计细节，例如具体的参数设置、损失函数、网络结构等。这些细节可能涉及xLSTM层的具体实现、门控机制的设计、状态更新方式的选择等。这些设计细节对于模型的性能和效率至关重要，但论文中没有提供足够的信息。

🖼️ 关键图片

📊 实验亮点

xLSTM 7B在下游任务上实现了与同规模LLM相当的性能，同时提供了比基于Llama和Mamba的LLM显著更快的推理速度和更高的效率。具体性能数据和提升幅度未知，但论文强调xLSTM 7B是目前最快和最高效的7B LLM。

🎯 应用场景

xLSTM 7B适用于需要快速高效推理的大规模语言模型应用，例如实时对话系统、机器翻译、文本摘要、代码生成等。其高效的推理能力使其能够在资源受限的环境中部署，并支持更复杂的推理任务。未来，xLSTM架构有望成为构建下一代LLM的基础。

📄 摘要（原文）

Recent breakthroughs in solving reasoning, math and coding problems with Large Language Models (LLMs) have been enabled by investing substantial computation budgets at inference time. Therefore, inference speed is one of the most critical properties of LLM architectures, and there is a growing need for LLMs that are efficient and fast at inference. Recently, LLMs built on the xLSTM architecture have emerged as a powerful alternative to Transformers, offering linear compute scaling with sequence length and constant memory usage, both highly desirable properties for efficient inference. However, such xLSTM-based LLMs have yet to be scaled to larger models and assessed and compared with respect to inference speed and efficiency. In this work, we introduce xLSTM 7B, a 7-billion-parameter LLM that combines xLSTM's architectural benefits with targeted optimizations for fast and efficient inference. Our experiments demonstrate that xLSTM 7B achieves performance on downstream tasks comparable to other similar-sized LLMs, while providing significantly faster inference speeds and greater efficiency compared to Llama- and Mamba-based LLMs. These results establish xLSTM 7B as the fastest and most efficient 7B LLM, offering a solution for tasks that require large amounts of test-time computation. Our work highlights xLSTM's potential as a foundational architecture for methods building on heavy use of LLM inference. Our model weights, model code and training code are open-source.

xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理