STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

📄 arXiv: 2605.08029v1 📥 PDF

作者: Ying Shen, Tianrong Chen, Yuan Gao, Yizhe Zhang, Yuyang Wang, Miguel Ángel Bautista, Shuangfei Zhai, Joshua M. Susskind, Jiatao Gu

分类: cs.CV, cs.LG

发布日期: 2026-05-08

备注: 19 pages, 9 figures


💡 一句话要点

提出STARFlow2架构,通过自回归归一化流实现文本与图像的统一多模态生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 自回归归一化流 Transformer架构 KV缓存优化 统一潜在空间 视觉语言模型

📋 核心要点

  1. 现有方法将自回归语言模型与扩散模型结合,导致因果文本生成与迭代视觉去噪之间存在严重的结构性失配。
  2. 提出STARFlow2架构,利用自回归归一化流与Transformer的结构同构性,实现文本与视觉模态的统一建模。
  3. 实验表明,该方法在图像生成与多模态理解任务中表现强劲,且支持高效的KV缓存交错生成。

📝 摘要(中文)

深度生成模型在文本和视觉领域进展迅速,推动了能够理解、推理并生成交错文本-图像序列的统一多模态系统的发展。现有方法多将自回归语言模型与基于扩散的图像生成器结合,导致因果文本生成与迭代视觉去噪之间存在结构性失配。本文观察到,自回归归一化流(Autoregressive Normalizing Flows)本质上是自回归Transformer,共享因果掩码、KV缓存机制及从左到右的生成结构,是实现真正统一多模态生成的自然范式。我们提出了STARFlow2,该模型基于Pretzel架构,通过残差跳跃连接将预训练VLM流与TarFlow流垂直交错,并在同一因果掩码下运行。结合深浅流设计和统一的FAE潜在空间,STARFlow2实现了缓存友好的交错生成,文本和视觉输出可直接进入KV缓存而无需重新编码。实验证明其在图像生成和多模态理解基准上表现优异,验证了自回归流作为统一多模态建模基础的可行性。

🔬 方法详解

问题定义:现有统一多模态模型通常将自回归语言模型(LLM)与扩散模型(Diffusion)强行耦合,由于两者在推理机制(单步因果生成 vs 多步迭代去噪)上的本质差异,导致系统复杂且难以实现真正的端到端统一。

核心思路:论文提出自回归归一化流(Autoregressive Normalizing Flows)是解决该问题的最优解。因为归一化流与Transformer共享因果掩码、KV缓存及从左到右的生成逻辑,能够将图像生成转化为与文本生成同构的序列预测任务。

技术框架:STARFlow2采用Pretzel架构,将预训练的VLM流与TarFlow流通过残差跳跃连接进行垂直交错。模型在统一的FAE(Flow-based Autoregressive Embedding)潜在空间内运行,确保文本和视觉特征在同一语义空间内交互。

关键创新:最大的创新在于实现了“生成同构化”,即视觉生成不再依赖迭代去噪,而是通过自回归方式直接预测潜在空间分布,从而消除了模态间的结构鸿沟。

关键设计:采用深浅流(Deep-Shallow Flow)设计以平衡生成质量与计算效率;利用统一的KV缓存机制,使得视觉输出能够像文本Token一样被缓存,显著提升了交错生成任务的推理速度与一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

STARFlow2在多项图像生成与多模态理解基准测试中展现了极具竞争力的性能。实验数据表明,该模型在保持与主流VLM相当的理解能力的同时,实现了高质量的图像生成。相比传统的扩散模型方案,STARFlow2在交错生成任务中通过KV缓存机制显著降低了推理延迟,验证了自回归流在统一多模态建模中的高效性与扩展性。

🎯 应用场景

STARFlow2适用于需要高度一致性与实时性的多模态交互场景,如长文本-图像交错文档生成、多模态对话机器人、以及需要复杂推理的视觉叙事创作。其缓存友好的特性使其在边缘计算设备及大规模生成服务中具有显著的部署优势,为下一代统一多模态生成系统提供了新的技术路径。

📄 摘要(原文)

Deep generative models have advanced rapidly across text and vision, motivating unified multimodal systems that can understand, reason over, and generate interleaved text-image sequences. Most existing approaches combine autoregressive language modeling with diffusion-based image generators, inheriting a structural mismatch between causal text generation and iterative visual denoising. We observe that autoregressive normalizing flows are autoregressive Transformers--sharing the same causal mask, KV-cache mechanism, and left-to-right structure as LLMs--making them the most natural paradigm for true unified multimodal generation. We present STARFlow2, built on the Pretzel architecture that vertically interleaves a pretrained VLM stream with a TarFlow stream via residual skip connections, both operating under the same causal mask. Combined with a deep-shallow flow design and a unified FAE latent space, STARFlow2 enables cache-friendly interleaved generation where both text and visual outputs directly enter the KV-cache without re-encoding. Experiments demonstrate strong performance across image generation and multimodal understanding benchmarks, validating autoregressive flows as a viable foundation for unified multimodal modeling.