D-AR: Diffusion via Autoregressive Models
作者: Ziteng Gao, Mike Zheng Shou
分类: cs.CV
发布日期: 2025-05-29
备注: Technical report
🔗 代码/项目: GITHUB
💡 一句话要点
D-AR:将图像扩散过程重构为自回归模型,实现图像生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 自回归模型 图像生成 token化 Llama 视觉合成 离散表示
📋 核心要点
- 现有扩散模型计算成本高昂,且难以进行灵活的控制和编辑。
- D-AR将扩散过程转化为自回归建模,利用token预测模拟扩散去噪过程。
- 实验表明,D-AR在ImageNet上取得了有竞争力的FID分数,并支持预览和布局控制等特性。
📝 摘要(中文)
本文提出了一种名为D-AR(Diffusion via Autoregressive models)的新范式,它将图像扩散过程重新定义为标准的自回归过程,以进行标准的下一个token预测。首先,设计了一个tokenizer,将图像转换为离散token序列,其中不同位置的token可以被解码为像素空间中不同的扩散去噪步骤。由于扩散的特性,这些token自然地遵循由粗到精的顺序,这直接适用于自回归建模。因此,我们在这些token上应用标准的下一个token预测,而无需修改任何底层设计(无论是因果掩码还是训练/推理策略),这种顺序自回归token生成直接反映了图像空间中的扩散过程。也就是说,一旦自回归模型生成了一个增量的token,我们就可以直接以流式方式将这些token解码为相应的扩散去噪步骤。我们的流程自然地揭示了几个有趣的特性,例如,它支持在仅生成部分token时进行一致的预览,并支持零样本布局控制合成。在标准的ImageNet基准测试中,我们的方法使用具有7.75亿参数的Llama骨干网络和256个离散token实现了2.09的FID。我们希望我们的工作能够激发未来对视觉合成的统一自回归架构的研究,特别是与大型语言模型结合。
🔬 方法详解
问题定义:现有扩散模型通常需要迭代多次去噪步骤,计算成本较高,并且在生成过程中缺乏对图像内容的灵活控制。此外,如何将扩散模型与大型语言模型相结合也是一个挑战。
核心思路:D-AR的核心思路是将图像扩散过程视为一个自回归序列生成问题。通过将图像编码为离散token序列,并利用自回归模型预测下一个token,从而模拟扩散模型的去噪过程。这种方法可以简化扩散模型的推理过程,并提供更灵活的控制方式。
技术框架:D-AR主要包含两个阶段:图像token化和自回归建模。首先,使用一个tokenizer将图像转换为离散token序列,其中每个token对应于扩散过程中的一个去噪步骤。然后,使用一个自回归模型(例如Llama)对这些token进行建模,并预测下一个token。在推理时,通过逐步生成token序列,并将其解码为图像,从而实现图像生成。
关键创新:D-AR的关键创新在于将扩散过程转化为自回归建模。这种方法不仅简化了扩散模型的推理过程,还使其能够利用现有的自回归模型架构和训练技术。此外,D-AR还支持一致性预览和零样本布局控制等特性,这为图像生成提供了更大的灵活性。
关键设计:D-AR的关键设计包括:1) 设计合适的图像tokenizer,将图像编码为具有扩散特性的离散token序列;2) 选择合适的自回归模型架构,例如Llama,并进行训练;3) 设计合适的解码器,将token序列解码为图像。论文中使用了具有7.75亿参数的Llama作为backbone,并使用了256个离散token。
🖼️ 关键图片
📊 实验亮点
D-AR在ImageNet数据集上取得了显著的成果,使用具有7.75亿参数的Llama骨干网络和256个离散token,实现了2.09的FID分数。此外,D-AR还展示了其在一致性预览和零样本布局控制方面的能力,这些特性使其在图像生成领域具有独特的优势。
🎯 应用场景
D-AR具有广泛的应用前景,包括图像生成、图像编辑、图像修复等。它可以用于创建高质量的图像内容,并为用户提供更灵活的图像控制方式。此外,D-AR还可以与大型语言模型相结合,实现文本到图像的生成,从而拓展了扩散模型的应用范围。该研究对于视觉合成领域的未来发展具有重要意义。
📄 摘要(原文)
This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR