Continuous Autoregressive Language Models

📄 arXiv: 2510.27688v1 📥 PDF

作者: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-10-31

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

提出CALM:通过连续向量预测,显著提升大语言模型的效率与性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 连续自回归模型 向量预测 自编码器 无似然学习

📋 核心要点

  1. 现有LLM逐token生成效率低,限制了模型扩展。
  2. CALM将离散token预测转为连续向量预测,提升语义带宽。
  3. 实验表明,CALM在降低计算成本的同时,保持了高性能。

📝 摘要(中文)

大型语言模型(LLM)的效率受到其逐token生成过程的根本限制。本文认为,克服这一瓶颈需要为LLM扩展设计一个新的维度:增加每个生成步骤的语义带宽。为此,我们引入了连续自回归语言模型(CALM),这是一种从离散的下一个token预测到连续的下一个向量预测的范式转变。CALM使用高保真自编码器将K个token的块压缩成单个连续向量,可以以超过99.9%的准确率重建原始token。这使得我们可以将语言建模为连续向量序列,而不是离散token序列,从而将生成步骤的数量减少K倍。这种范式转变需要一个新的建模工具包;因此,我们开发了一个全面的无似然框架,该框架支持在连续域中进行鲁棒的训练、评估和可控采样。实验表明,CALM显著提高了性能-计算权衡,以显著降低的计算成本实现了强大的离散基线的性能。更重要的是,这些发现确立了下一个向量预测作为一种强大且可扩展的超高效语言模型途径。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的生成过程是逐token进行的,这种串行化的方式严重限制了生成效率,成为LLM进一步扩展的瓶颈。如何提高LLM的生成效率,在保证性能的前提下降低计算成本,是本文要解决的核心问题。

核心思路:本文的核心思路是将离散的token预测问题转化为连续的向量预测问题。通过将一段连续的token压缩成一个向量,模型只需要预测这个向量,然后通过解码器将向量还原成token序列,从而减少了生成步骤,提高了效率。这种思路类似于图像压缩,旨在提高每个生成步骤的语义带宽。

技术框架:CALM包含以下主要模块:1) 高保真自编码器:用于将K个token的chunk压缩成单个连续向量,并能够以高精度重建原始token。2) 连续自回归模型:用于建模连续向量序列,预测下一个向量。3) 无似然框架:用于在连续域中进行训练、评估和采样,避免了直接计算似然的困难。整体流程是,首先使用自编码器将文本数据编码成连续向量序列,然后使用自回归模型学习向量序列的分布,最后使用无似然方法进行采样生成。

关键创新:最重要的技术创新点是从离散token预测到连续向量预测的范式转变。与传统的token-by-token生成方式不同,CALM一次性预测一个包含多个token信息的连续向量,从而显著减少了生成步骤。这种方法可以看作是对LLM生成过程的一种“并行化”,提高了生成效率。

关键设计:CALM的关键设计包括:1) 高保真自编码器的设计,需要保证压缩后的向量能够尽可能完整地保留原始token的信息,以便解码器能够准确地重建token序列。2) 无似然框架的选择,需要能够有效地训练和评估连续自回归模型,并支持可控的采样生成。论文中具体使用的自编码器结构和无似然方法(未知)是影响模型性能的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CALM在性能-计算权衡方面取得了显著的提升。在保持与强大的离散基线相当的性能水平下,CALM显著降低了计算成本。具体的性能数据和对比基线(未知),但总体而言,CALM验证了下一个向量预测作为一种高效语言模型途径的有效性。

🎯 应用场景

CALM具有广泛的应用前景,可以应用于各种需要高效文本生成的场景,例如机器翻译、文本摘要、对话系统等。通过降低计算成本,CALM有望推动LLM在资源受限环境中的部署和应用。此外,CALM的连续向量表示也为文本表示学习和语义理解提供了新的思路。

📄 摘要(原文)

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.