Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models

📄 arXiv: 2506.23025v1 📥 PDF

作者: Tejas Vaidhya, Ayush Kaushal, Vineet Jain, Francis Couture Harpin, Prashant Shishodia, Majid Behbahani, Yuriy Nevmyvaka, Irina Rish

分类: cs.LG, cs.AI

发布日期: 2025-06-28


💡 一句话要点

Spectra 1.1:通过三元语言模型和高效推理加速大规模语言模型部署

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 三元量化 语言模型 模型压缩 高效推理 GPU加速 量化感知训练 模型部署

📋 核心要点

  1. 现有LLM推理效率受限于GPU内存带宽和容量,成为部署瓶颈。
  2. 论文提出三元语言模型(TriLMs),通过量化感知训练降低内存需求,并优化数据打包。
  3. Spectra-1.1在1.2万亿token上训练,并使用TriRun内核在GPU上实现5倍加速。

📝 摘要(中文)

大型语言模型(LLMs)在研究和工业应用中日益普及,但其推理效率仍然是一个重大挑战。随着现代GPU架构的计算能力不断提高,其内存带宽和容量并未按比例扩展,这在推理过程中造成了严重的瓶颈。为了解决这个问题,我们研究了三元语言模型(TriLMs),该模型采用量化感知训练来显著降低内存需求。我们首先通过缩放定律分析来分析TriLMs的可扩展性,结果表明TriLMs从增加训练数据中获益比缩放模型参数更多。基于这一观察,我们推出了Spectra-1.1,这是一套开放的TriLMs,在高达1.2万亿个token上进行训练,展示了大规模下的持续性能提升。此外,为了提高推理效率,我们提出了用于三元权重的新型2-bit和1.6-bit打包方案,这些方案展示了在各种CPU架构上的加速推理。此外,在2-bit打包的基础上,我们开发了一个名为TriRun的GPU内核,与浮点基线相比,它可以将端到端模型推理加速高达5倍。为了鼓励进一步探索和开发TriLMs,我们将发布Spectra-1.1套件和TriRun推理内核。总的来说,我们的工作为构建和部署高效的LLMs奠定了基础,为研究界提供了宝贵的资源。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)推理效率低下的问题。现有方法受限于GPU的内存带宽和容量,导致推理速度慢,无法充分利用GPU的计算能力。尤其是在部署大规模LLM时,内存瓶颈更加突出。

核心思路:论文的核心思路是利用三元量化(Ternary Quantization)来压缩模型权重,从而降低内存需求,提高推理速度。通过量化感知训练,模型可以在保持性能的同时,显著减少内存占用。此外,论文还通过优化数据打包方式和开发专用GPU内核来进一步提升推理效率。

技术框架:论文的技术框架主要包括三个部分:1) 三元语言模型(TriLMs)的训练,采用量化感知训练方法;2) 针对三元权重的2-bit和1.6-bit打包方案,用于进一步压缩模型;3) 基于2-bit打包的GPU内核TriRun,用于加速端到端模型推理。整体流程是从模型训练到权重压缩,再到推理加速。

关键创新:论文的关键创新点在于:1) 提出了三元语言模型(TriLMs)的缩放定律,发现TriLMs更受益于增加训练数据而非模型参数;2) 设计了针对三元权重的2-bit和1.6-bit打包方案,实现了更高的压缩率;3) 开发了GPU内核TriRun,针对三元量化模型进行了优化,实现了显著的推理加速。与现有方法相比,该方法在保证性能的同时,显著降低了内存需求,提高了推理效率。

关键设计:在三元量化方面,论文采用了量化感知训练,具体量化方法未知。在数据打包方面,设计了2-bit和1.6-bit两种方案,具体打包方式未知。TriRun内核针对2-bit打包进行了优化,具体优化策略未知。训练数据集规模达到1.2万亿token,具体数据集构成未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Spectra-1.1在高达1.2万亿个token上进行训练,展示了大规模下的持续性能提升。提出的2-bit和1.6-bit打包方案在各种CPU架构上展示了加速推理。TriRun GPU内核与浮点基线相比,可以将端到端模型推理加速高达5倍,显著提升了推理效率。

🎯 应用场景

该研究成果可广泛应用于需要高效LLM推理的场景,如移动设备上的自然语言处理、边缘计算环境下的智能助手、以及对延迟敏感的在线服务。通过降低内存需求和提高推理速度,该方法能够使LLM在资源受限的环境中部署成为可能,并降低大规模LLM服务的成本。

📄 摘要(原文)

Large language models (LLMs) are increasingly used across research and industry applications, yet their inference efficiency remains a significant challenge. As the computational power of modern GPU architectures continuously improves, their memory bandwidth and capacity have not scaled proportionally, creating a critical bottleneck during inference. To address this, we investigate ternary language models (TriLMs) that employ quantization-aware training to significantly reduce memory requirements. We first analyze the scalability of TriLMs by conducting a scaling law analysis, revealing that TriLMs benefit more from increasing training data than from scaling model parameters. Based on this observation, we introduce Spectra-1.1, an open suite of TriLMs trained on up to 1.2 trillion tokens, demonstrating sustained performance gains at scale. Furthermore, to improve inference efficiency, we propose novel 2-bit and 1.6-bit packing schemes for ternary weights, which demonstrate accelerated inference across various CPU architectures. Also, building on the 2-bit packing, we develop a GPU kernel called TriRun that accelerates end-to-end model inference by up to 5 times compared to floating-point baselines. To encourage further exploration and development of TriLMs, we will release the Spectra-1.1 suite and TriRun inference kernels. Overall, our work lays the foundation for building and deploying efficient LLMs, providing a valuable resource for the research community.