ARFlow: Autoregressive Flow with Hybrid Linear Attention

📄 arXiv: 2501.16085v2 📥 PDF

作者: Mude Hui, Rui-Jie Zhu, Songlin Yang, Yu Zhang, Zirui Wang, Yuyin Zhou, Jason Eshraghian, Cihang Xie

分类: cs.CV

发布日期: 2025-01-27 (更新: 2025-06-15)


💡 一句话要点

ARFlow:结合自回归建模和混合线性注意力机制的Flow模型,提升图像生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: Flow模型 自回归建模 图像生成 长程依赖 线性注意力

📋 核心要点

  1. Flow模型在图像生成中面临长程依赖建模的挑战,现有方法难以有效捕捉图像间的上下文信息。
  2. ARFlow将自回归建模融入Flow模型,通过构建因果噪声序列,使模型学习类别级变化和保持因果关系。
  3. 实验表明,ARFlow在ImageNet 256*256上取得了显著的FID提升,无需无分类器指导达到6.63,使用后达到1.96。

📝 摘要(中文)

Flow模型在生成逼真图像方面表现出色,但通常难以捕捉生成过程中的长程依赖关系,因为它们将先前时间步的所有信息压缩到单个受损图像中。为了解决这个限制,我们提出将自回归建模(以其在建模复杂、高维联合概率分布方面的卓越表现而闻名)集成到Flow模型中。在训练期间,在每个步骤中,我们通过从同一语义类别中采样多个图像并应用不同程度的噪声来构建因果排序序列,其中具有较高噪声水平的图像充当具有较低噪声水平的图像的因果前身。这种设计使模型能够学习更广泛的类别级变化,同时在Flow过程中保持适当的因果关系。在生成过程中,模型自回归地调节先前去噪步骤中先前生成的图像,形成上下文连贯的生成轨迹。此外,我们设计了一种定制的混合线性注意力机制,专门为我们的建模方法量身定制,以提高计算效率。我们的方法,称为ARFlow,在256 * 256的ImageNet上实现了6.63的FID分数,无需无分类器指导,在使用1.5的无分类器指导下达到了1.96的FID,优于之前的基于Flow的模型SiT的2.06 FID。大量的消融研究证明了我们的建模策略和分块注意力设计的有效性。

🔬 方法详解

问题定义:Flow模型在图像生成任务中表现良好,但其将所有先前信息压缩到单个图像中,导致难以捕捉长程依赖关系,限制了生成图像的连贯性和上下文一致性。现有方法难以在保持计算效率的同时,有效地建模图像间的复杂关系。

核心思路:ARFlow的核心在于将自回归建模的优势引入Flow模型。通过构建具有因果关系的噪声图像序列,模型可以学习到图像间的依赖关系,并利用先前生成的图像作为上下文信息,从而生成更连贯、更真实的图像。这种方法借鉴了自回归模型在处理序列数据方面的优势,并将其与Flow模型的生成能力相结合。

技术框架:ARFlow的整体框架包括以下几个主要步骤:1) 从同一语义类别中采样多个图像;2) 对这些图像应用不同程度的噪声,构建因果排序的噪声序列;3) 使用Flow模型对噪声序列进行建模,其中具有较高噪声水平的图像作为具有较低噪声水平的图像的条件;4) 在生成过程中,模型自回归地利用先前生成的图像作为上下文信息,逐步生成最终图像。该框架的关键在于噪声序列的构建和自回归建模的结合。

关键创新:ARFlow的关键创新在于以下两点:1) 将自回归建模引入Flow模型,解决了Flow模型难以捕捉长程依赖关系的问题;2) 设计了一种定制的混合线性注意力机制,提高了计算效率,使得模型能够处理高分辨率图像。这种混合线性注意力机制可能结合了全局注意力和局部注意力,以在计算效率和建模能力之间取得平衡。

关键设计:ARFlow的关键设计包括:1) 噪声序列的构建方式,需要仔细设计噪声水平的分布,以保证因果关系的正确性;2) 自回归建模的具体实现方式,例如可以使用Transformer等序列模型;3) 混合线性注意力机制的具体结构和参数设置,需要在计算效率和建模能力之间进行权衡;4) 损失函数的设计,需要保证模型能够学习到图像间的依赖关系,并生成高质量的图像。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARFlow在ImageNet 256*256图像生成任务上取得了显著的性能提升。在没有使用无分类器指导的情况下,ARFlow达到了6.63的FID分数。在使用1.5的无分类器指导后,FID分数进一步降低到1.96,超过了之前的基于Flow的模型SiT的2.06 FID。这些结果表明,ARFlow在图像生成质量方面具有显著的优势。

🎯 应用场景

ARFlow具有广泛的应用前景,包括图像生成、图像编辑、图像修复等。它可以用于生成逼真的艺术作品、创建虚拟现实场景、修复损坏的图像等。此外,ARFlow还可以应用于其他领域,例如视频生成、音频生成等,具有重要的实际价值和未来影响。

📄 摘要(原文)

Flow models are effective at progressively generating realistic images, but they generally struggle to capture long-range dependencies during the generation process as they compress all the information from previous time steps into a single corrupted image. To address this limitation, we propose integrating autoregressive modeling -- known for its excellence in modeling complex, high-dimensional joint probability distributions -- into flow models. During training, at each step, we construct causally-ordered sequences by sampling multiple images from the same semantic category and applying different levels of noise, where images with higher noise levels serve as causal predecessors to those with lower noise levels. This design enables the model to learn broader category-level variations while maintaining proper causal relationships in the flow process. During generation, the model autoregressively conditions the previously generated images from earlier denoising steps, forming a contextual and coherent generation trajectory. Additionally, we design a customized hybrid linear attention mechanism tailored to our modeling approach to enhance computational efficiency. Our approach, termed ARFlow, achieves 6.63 FID scores on ImageNet at 256 * 256 without classifier-free guidance, reaching 1.96 FID with classifier-free guidance 1.5, outperforming the previous flow-based model SiT's 2.06 FID. Extensive ablation studies demonstrate the effectiveness of our modeling strategy and chunk-wise attention design.