FARMER: Flow AutoRegressive Transformer over Pixels
作者: Guangting Zheng, Qinyu Zhao, Tao Yang, Fei Xiao, Zhijie Lin, Jie Wu, Jiajun Deng, Yanyong Zhang, Rui Zhu
分类: cs.CV
发布日期: 2025-10-27 (更新: 2025-10-30)
备注: Bytedance Seed Technical Report
💡 一句话要点
FARMER:提出一种基于流自回归Transformer的像素生成模型,实现精确似然估计和高质量图像合成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像生成 自回归模型 归一化流 可逆神经网络 自监督学习 蒸馏训练 无分类器引导 像素级建模
📋 核心要点
- 现有视觉像素数据的连续自回归建模面临序列过长和高维空间的挑战。
- FARMER结合归一化流和自回归模型,通过可逆自回归流将图像转换为潜在序列。
- 通过自监督降维、单步蒸馏和重采样引导,FARMER在保证精确似然的同时提升了生成质量和速度。
📝 摘要(中文)
本文提出了一种名为FARMER的端到端生成框架,它统一了归一化流(NF)和自回归(AR)模型,可以直接从原始像素进行可追踪的似然估计和高质量的图像合成。FARMER采用可逆的自回归流将图像转换为潜在序列,其分布由自回归模型隐式建模。为了解决像素级建模中的冗余和复杂性,我们提出了一种自监督的降维方案,将NF潜在通道划分为信息性和冗余组,从而实现更有效和高效的AR建模。此外,我们设计了一种单步蒸馏方案来显著加速推理速度,并引入了一种基于重采样的无分类器引导算法来提高图像生成质量。大量实验表明,与现有的基于像素的生成模型相比,FARMER实现了具有竞争力的性能,同时提供了精确的似然性以及可扩展的训练。
🔬 方法详解
问题定义:直接对原始数据分布的显式似然进行建模是机器学习领域中的关键问题。然而,在视觉像素数据上进行连续的自回归建模面临着极其长的序列和高维空间的挑战。现有的方法通常难以在计算效率和生成质量之间取得平衡,并且难以提供精确的似然估计。
核心思路:FARMER的核心思路是将归一化流(Normalizing Flows, NF)和自回归(Autoregressive, AR)模型结合起来。NF用于将原始像素空间映射到潜在空间,从而降低维度并简化分布。然后,AR模型在潜在空间中对序列进行建模,从而捕捉图像的结构信息。通过这种方式,FARMER可以实现可追踪的似然估计和高质量的图像合成。
技术框架:FARMER的整体框架包括以下几个主要模块:1) 可逆自回归流(Invertible Autoregressive Flow):将图像转换为潜在序列。2) 自监督降维:将NF潜在通道划分为信息性和冗余组。3) 自回归模型:对潜在序列的分布进行建模。4) 单步蒸馏:加速推理速度。5) 基于重采样的无分类器引导:提高图像生成质量。
关键创新:FARMER的关键创新在于其统一了NF和AR模型,并提出了自监督降维方案。传统的NF模型通常难以捕捉图像的复杂结构,而AR模型在处理高维像素数据时计算成本很高。FARMER通过NF将图像映射到低维潜在空间,然后使用AR模型对潜在序列进行建模,从而克服了这些限制。自监督降维方案进一步提高了建模效率。
关键设计:在可逆自回归流中,可以使用不同的可逆层,如仿射耦合层或Glow层。自监督降维方案可以通过聚类或信息瓶颈等方法实现。自回归模型可以使用Transformer或LSTM等架构。单步蒸馏可以通过最小化教师模型和学生模型之间的KL散度来实现。基于重采样的无分类器引导可以通过调整采样分布来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FARMER在图像生成任务上取得了与现有像素级生成模型相媲美的性能,同时提供了精确的似然估计。通过单步蒸馏,推理速度得到了显著提升。自监督降维方案有效地提高了建模效率。基于重采样的无分类器引导算法进一步提高了图像生成质量。
🎯 应用场景
FARMER可应用于图像生成、图像编辑、图像修复等领域。其精确的似然估计能力使其在异常检测、数据压缩等领域也具有潜在的应用价值。未来,FARMER可以扩展到视频生成、3D建模等更复杂的任务中,并与其他生成模型相结合,进一步提高生成质量和效率。
📄 摘要(原文)
Directly modeling the explicit likelihood of the raw data distribution is key topic in the machine learning area, which achieves the scaling successes in Large Language Models by autoregressive modeling. However, continuous AR modeling over visual pixel data suffer from extremely long sequences and high-dimensional spaces. In this paper, we present FARMER, a novel end-to-end generative framework that unifies Normalizing Flows (NF) and Autoregressive (AR) models for tractable likelihood estimation and high-quality image synthesis directly from raw pixels. FARMER employs an invertible autoregressive flow to transform images into latent sequences, whose distribution is modeled implicitly by an autoregressive model. To address the redundancy and complexity in pixel-level modeling, we propose a self-supervised dimension reduction scheme that partitions NF latent channels into informative and redundant groups, enabling more effective and efficient AR modeling. Furthermore, we design a one-step distillation scheme to significantly accelerate inference speed and introduce a resampling-based classifier-free guidance algorithm to boost image generation quality. Extensive experiments demonstrate that FARMER achieves competitive performance compared to existing pixel-based generative models while providing exact likelihoods and scalable training.