NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
作者: Huichao Zhang, Liao Qu, Yiheng Liu, Hang Chen, Yangyang Song, Yongsheng Dong, Shikun Sun, Xian Li, Xu Wang, Yi Jiang, Hu Ye, Bo Chen, Yiming Gao, Peng Liu, Akide Liu, Zhipeng Yang, Qili Deng, Linjie Xing, Jiyang Liu, Zhao Wang, Yang Zhou, Mingcong Liu, Yi Zhang, Qian He, Xiwei Hu, Zhongqi Qi, Jie Shao, Zhiye Fu, Shuai Wang, Fangmin Chen, Xuezhi Chai, Zhihua Wu, Yitong Wang, Zehuan Yuan, Daniel K. Du, Xinglong Wu
分类: cs.CV, cs.AI
发布日期: 2026-01-05
备注: Project page: https://github.com/ByteVisionLab/NextFlow
💡 一句话要点
NextFlow:统一序列建模激活多模态理解与生成能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态生成 自回归模型 Transformer 图像生成 序列建模
📋 核心要点
- 现有自回归模型在多模态生成中速度慢,且难以处理图像的分层结构。
- NextFlow采用next-scale预测视觉token,而非传统的raster-scan,加速图像生成。
- NextFlow在统一模型中达到SOTA性能,视觉质量可与专用扩散模型媲美。
📝 摘要(中文)
本文提出了NextFlow,一个统一的decoder-only自回归Transformer,使用6万亿个交错的文本-图像离散token进行训练。通过在统一的自回归架构中利用统一的视觉表示,NextFlow原生激活了多模态理解和生成能力,解锁了图像编辑、交错内容和视频生成的能力。受到模态不同性质的启发——文本是严格序列化的,而图像本质上是分层的——我们保留了文本的next-token预测,但对视觉生成采用了next-scale预测。这与传统的raster-scan方法不同,使得在短短5秒内生成1024x1024图像成为可能,比同类AR模型快几个数量级。我们通过一种鲁棒的训练方法解决了多尺度生成的不稳定性。此外,我们还为强化学习引入了一种prefix-tuning策略。实验表明,NextFlow在统一模型中实现了最先进的性能,并在视觉质量上与专门的扩散模型基线相媲美。
🔬 方法详解
问题定义:现有自回归模型在处理多模态数据,特别是图像生成时,面临速度和效率的挑战。传统的raster-scan方法逐像素生成图像,速度慢,且难以捕捉图像的全局结构和分层关系。此外,训练多模态统一模型也存在不稳定性问题。
核心思路:NextFlow的核心思路是采用统一的自回归Transformer架构,并针对不同模态的特性进行优化。对于文本,保留传统的next-token预测;对于图像,则采用next-scale预测,即预测图像在不同尺度下的表示,从而更好地捕捉图像的分层结构,并显著提升生成速度。
技术框架:NextFlow是一个decoder-only的自回归Transformer模型。它使用统一的词汇表,包含文本和图像的离散token。训练数据是交错的文本和图像数据。模型的主要流程包括:输入文本和图像token序列,通过Transformer decoder进行自回归预测,对于文本token预测下一个token,对于图像token预测下一个尺度的表示。
关键创新:NextFlow的关键创新在于next-scale预测。与传统的raster-scan方法不同,next-scale预测能够并行生成图像的不同尺度,从而显著加速图像生成过程。此外,该模型还提出了一种鲁棒的训练方法,以解决多尺度生成带来的不稳定性问题。
关键设计:NextFlow使用6万亿个token进行训练,包括文本和图像数据。图像被编码成离散的token序列,并表示成多尺度结构。模型采用prefix-tuning策略进行强化学习,以进一步提升生成质量。具体的网络结构细节(如Transformer层数、头数等)和损失函数信息在论文中可能包含更详细的描述,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
NextFlow在统一模型中实现了最先进的性能,并在视觉质量上与专门的扩散模型基线相媲美。该模型能够在短短5秒内生成1024x1024的图像,比同类自回归模型快几个数量级。这些结果表明NextFlow在多模态生成方面具有显著的优势。
🎯 应用场景
NextFlow具有广泛的应用前景,包括图像编辑、交错内容生成、视频生成等。它可以用于创建各种多媒体内容,例如生成带有文本描述的图像、编辑现有图像、生成短视频等。该研究的实际价值在于提升了多模态内容生成的效率和质量,未来可能推动AI在创意产业和内容创作领域的应用。
📄 摘要(原文)
We present NextFlow, a unified decoder-only autoregressive transformer trained on 6 trillion interleaved text-image discrete tokens. By leveraging a unified vision representation within a unified autoregressive architecture, NextFlow natively activates multimodal understanding and generation capabilities, unlocking abilities of image editing, interleaved content and video generation. Motivated by the distinct nature of modalities - where text is strictly sequential and images are inherently hierarchical - we retain next-token prediction for text but adopt next-scale prediction for visual generation. This departs from traditional raster-scan methods, enabling the generation of 1024x1024 images in just 5 seconds - orders of magnitude faster than comparable AR models. We address the instabilities of multi-scale generation through a robust training recipe. Furthermore, we introduce a prefix-tuning strategy for reinforcement learning. Experiments demonstrate that NextFlow achieves state-of-the-art performance among unified models and rivals specialized diffusion baselines in visual quality.