BitDance: Scaling Autoregressive Generative Models with Binary Tokens

📄 arXiv: 2602.14041v1 📥 PDF

作者: Yuang Ai, Jiaming Han, Shaobin Zhuang, Weijia Mao, Xuefeng Hu, Ziyan Yang, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen

分类: cs.CV, cs.AI

发布日期: 2026-02-15

备注: Code and models: https://github.com/shallowdream204/BitDance

🔗 代码/项目: GITHUB


💡 一句话要点

BitDance:通过二元视觉令牌扩展自回归生成模型,实现高效图像生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自回归模型 图像生成 二元令牌 扩散模型 并行推理 文本到图像生成 高分辨率图像

📋 核心要点

  1. 现有自回归图像生成模型在处理高维离散表示时面临采样困难和计算复杂度高的挑战。
  2. BitDance通过预测二元视觉令牌,并结合二元扩散头和next-patch diffusion解码,实现了高效的图像生成。
  3. 实验表明,BitDance在ImageNet上取得了领先的FID分数,并在推理速度上显著优于其他自回归模型。

📝 摘要(中文)

本文提出了BitDance,一种可扩展的自回归(AR)图像生成器,它预测二元视觉令牌而不是码本索引。凭借高熵二元潜在变量,BitDance允许每个令牌表示高达$2^{256}$个状态,从而产生紧凑但高度表达性的离散表示。使用标准分类方法从此类巨大的令牌空间中采样非常困难。为了解决这个问题,BitDance使用二元扩散头:它不使用softmax预测索引,而是采用连续空间扩散来生成二元令牌。此外,我们提出了一种新的解码方法,即next-patch diffusion,它可以并行预测多个令牌,精度高,从而大大加快了推理速度。在ImageNet 256x256上,BitDance实现了1.24的FID,是AR模型中最好的。通过next-patch diffusion,BitDance击败了使用14亿参数的先进并行AR模型,同时使用更少的参数(2.6亿),速度提高了8.7倍。对于文本到图像的生成,BitDance训练大规模多模态令牌,并高效地生成高分辨率、逼真的图像,显示出强大的性能和良好的扩展性。在生成1024x1024图像时,BitDance比之前的AR模型加速了30倍以上。我们发布了代码和模型,以促进对AR基础模型的进一步研究。

🔬 方法详解

问题定义:现有的自回归图像生成模型通常使用码本索引作为离散表示,这限制了模型的表达能力,并且在采样时面临计算复杂度高的挑战。特别是对于高分辨率图像,生成过程缓慢且资源消耗大。

核心思路:BitDance的核心思路是使用二元视觉令牌来表示图像,每个令牌具有极高的熵,从而实现紧凑且富有表达力的离散表示。为了解决从巨大令牌空间采样的问题,引入了二元扩散头,利用连续空间扩散过程生成二元令牌。此外,next-patch diffusion通过并行预测多个令牌来加速推理过程。

技术框架:BitDance的整体框架包括以下几个主要模块:1) 图像编码器:将输入图像编码为潜在表示。2) 二元令牌生成器:使用自回归模型和二元扩散头生成二元视觉令牌。3) 图像解码器:将二元令牌解码为图像。4) Next-patch diffusion模块:用于并行预测多个令牌,加速推理。

关键创新:BitDance的关键创新在于:1) 使用二元视觉令牌进行图像表示,提高了模型的表达能力。2) 引入二元扩散头,解决了从巨大令牌空间采样的问题。3) 提出next-patch diffusion,实现了并行令牌预测,显著提高了推理速度。

关键设计:二元扩散头使用连续空间扩散模型来生成二元令牌,避免了直接预测离散索引的困难。Next-patch diffusion通过预测图像的局部区域(patch)来并行生成多个令牌,减少了自回归模型的顺序依赖性。损失函数包括扩散模型的损失和自回归模型的损失,用于优化模型的生成质量和一致性。

📊 实验亮点

BitDance在ImageNet 256x256上取得了1.24的FID分数,优于其他自回归模型。与使用14亿参数的先进并行AR模型相比,BitDance使用更少的参数(2.6亿),速度提高了8.7倍。在生成1024x1024图像时,BitDance比之前的AR模型加速了30倍以上,展示了其强大的生成能力和高效性。

🎯 应用场景

BitDance具有广泛的应用前景,包括高质量图像生成、文本到图像生成、图像编辑和修复等。其高效的生成能力使其适用于需要快速生成大量图像的场景,例如游戏开发、广告设计和虚拟现实。此外,BitDance还可以作为图像理解和推理的基础模型,为其他计算机视觉任务提供支持。

📄 摘要(原文)

We present BitDance, a scalable autoregressive (AR) image generator that predicts binary visual tokens instead of codebook indices. With high-entropy binary latents, BitDance lets each token represent up to $2^{256}$ states, yielding a compact yet highly expressive discrete representation. Sampling from such a huge token space is difficult with standard classification. To resolve this, BitDance uses a binary diffusion head: instead of predicting an index with softmax, it employs continuous-space diffusion to generate the binary tokens. Furthermore, we propose next-patch diffusion, a new decoding method that predicts multiple tokens in parallel with high accuracy, greatly speeding up inference. On ImageNet 256x256, BitDance achieves an FID of 1.24, the best among AR models. With next-patch diffusion, BitDance beats state-of-the-art parallel AR models that use 1.4B parameters, while using 5.4x fewer parameters (260M) and achieving 8.7x speedup. For text-to-image generation, BitDance trains on large-scale multimodal tokens and generates high-resolution, photorealistic images efficiently, showing strong performance and favorable scaling. When generating 1024x1024 images, BitDance achieves a speedup of over 30x compared to prior AR models. We release code and models to facilitate further research on AR foundation models. Code and models are available at: https://github.com/shallowdream204/BitDance.