Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models

作者: Tejas Vaidhya, Ayush Kaushal, Vineet Jain, Francis Couture Harpin, Prashant Shishodia, Majid Behbahani, Yuriy Nevmyvaka, Irina Rish

分类: cs.LG, cs.AI

发布日期: 2025-06-28

💡 一句话要点

Spectra 1.1：通过三元语言模型和高效推理加速大规模语言模型部署

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 三元量化 语言模型 模型压缩 高效推理 GPU加速 量化感知训练 模型部署

📋 核心要点

现有LLM推理效率受限于GPU内存带宽和容量，成为部署瓶颈。
论文提出三元语言模型（TriLMs），通过量化感知训练降低内存需求，并优化数据打包。
Spectra-1.1在1.2万亿token上训练，并使用TriRun内核在GPU上实现5倍加速。

📝 摘要（中文）

大型语言模型（LLMs）在研究和工业应用中日益普及，但其推理效率仍然是一个重大挑战。随着现代GPU架构的计算能力不断提高，其内存带宽和容量并未按比例扩展，这在推理过程中造成了严重的瓶颈。为了解决这个问题，我们研究了三元语言模型（TriLMs），该模型采用量化感知训练来显著降低内存需求。我们首先通过缩放定律分析来分析TriLMs的可扩展性，结果表明TriLMs从增加训练数据中获益比缩放模型参数更多。基于这一观察，我们推出了Spectra-1.1，这是一套开放的TriLMs，在高达1.2万亿个token上进行训练，展示了大规模下的持续性能提升。此外，为了提高推理效率，我们提出了用于三元权重的新型2-bit和1.6-bit打包方案，这些方案展示了在各种CPU架构上的加速推理。此外，在2-bit打包的基础上，我们开发了一个名为TriRun的GPU内核，与浮点基线相比，它可以将端到端模型推理加速高达5倍。为了鼓励进一步探索和开发TriLMs，我们将发布Spectra-1.1套件和TriRun推理内核。总的来说，我们的工作为构建和部署高效的LLMs奠定了基础，为研究界提供了宝贵的资源。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）推理效率低下的问题。现有方法受限于GPU的内存带宽和容量，导致推理速度慢，无法充分利用GPU的计算能力。尤其是在部署大规模LLM时，内存瓶颈更加突出。

核心思路：论文的核心思路是利用三元量化（Ternary Quantization）来压缩模型权重，从而降低内存需求，提高推理速度。通过量化感知训练，模型可以在保持性能的同时，显著减少内存占用。此外，论文还通过优化数据打包方式和开发专用GPU内核来进一步提升推理效率。

技术框架：论文的技术框架主要包括三个部分：1) 三元语言模型（TriLMs）的训练，采用量化感知训练方法；2) 针对三元权重的2-bit和1.6-bit打包方案，用于进一步压缩模型；3) 基于2-bit打包的GPU内核TriRun，用于加速端到端模型推理。整体流程是从模型训练到权重压缩，再到推理加速。

关键创新：论文的关键创新点在于：1) 提出了三元语言模型（TriLMs）的缩放定律，发现TriLMs更受益于增加训练数据而非模型参数；2) 设计了针对三元权重的2-bit和1.6-bit打包方案，实现了更高的压缩率；3) 开发了GPU内核TriRun，针对三元量化模型进行了优化，实现了显著的推理加速。与现有方法相比，该方法在保证性能的同时，显著降低了内存需求，提高了推理效率。

关键设计：在三元量化方面，论文采用了量化感知训练，具体量化方法未知。在数据打包方面，设计了2-bit和1.6-bit两种方案，具体打包方式未知。TriRun内核针对2-bit打包进行了优化，具体优化策略未知。训练数据集规模达到1.2万亿token，具体数据集构成未知。

🖼️ 关键图片

📊 实验亮点

Spectra-1.1在高达1.2万亿个token上进行训练，展示了大规模下的持续性能提升。提出的2-bit和1.6-bit打包方案在各种CPU架构上展示了加速推理。TriRun GPU内核与浮点基线相比，可以将端到端模型推理加速高达5倍，显著提升了推理效率。

🎯 应用场景

该研究成果可广泛应用于需要高效LLM推理的场景，如移动设备上的自然语言处理、边缘计算环境下的智能助手、以及对延迟敏感的在线服务。通过降低内存需求和提高推理速度，该方法能够使LLM在资源受限的环境中部署成为可能，并降低大规模LLM服务的成本。

📄 摘要（原文）

Large language models (LLMs) are increasingly used across research and industry applications, yet their inference efficiency remains a significant challenge. As the computational power of modern GPU architectures continuously improves, their memory bandwidth and capacity have not scaled proportionally, creating a critical bottleneck during inference. To address this, we investigate ternary language models (TriLMs) that employ quantization-aware training to significantly reduce memory requirements. We first analyze the scalability of TriLMs by conducting a scaling law analysis, revealing that TriLMs benefit more from increasing training data than from scaling model parameters. Based on this observation, we introduce Spectra-1.1, an open suite of TriLMs trained on up to 1.2 trillion tokens, demonstrating sustained performance gains at scale. Furthermore, to improve inference efficiency, we propose novel 2-bit and 1.6-bit packing schemes for ternary weights, which demonstrate accelerated inference across various CPU architectures. Also, building on the 2-bit packing, we develop a GPU kernel called TriRun that accelerates end-to-end model inference by up to 5 times compared to floating-point baselines. To encourage further exploration and development of TriLMs, we will release the Spectra-1.1 suite and TriRun inference kernels. Overall, our work lays the foundation for building and deploying efficient LLMs, providing a valuable resource for the research community.

Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理