FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
作者: Jin Wang, Yao Lai, Aoxue Li, Shifeng Zhang, Jiacheng Sun, Ning Kang, Chengyue Wu, Zhenguo Li, Ping Luo
分类: cs.CV
发布日期: 2025-05-26 (更新: 2025-07-24)
备注: 37 pages, 12 figures
💡 一句话要点
提出基于离散流匹配的统一多模态模型FUDOKI,用于视觉理解和图像生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 离散流匹配 图像生成 视觉理解 自回归模型 统一模型 动能最优速度
📋 核心要点
- 现有MLLM主要依赖自回归架构,存在图像生成顺序限制和因果推理能力不足的问题。
- FUDOKI基于离散流匹配,利用动能最优速度的概率路径,实现迭代优化和双向上下文融合。
- FUDOKI通过从预训练AR模型初始化并自适应过渡,在视觉理解和图像生成上达到SOTA水平。
📝 摘要(中文)
大型语言模型(LLMs)的快速发展催生了多模态大型语言模型(MLLMs),它们在单一框架内统一了视觉理解和图像生成。然而,现有的大多数MLLMs依赖于自回归(AR)架构,这给未来的发展带来了固有的限制,例如图像生成中的光栅扫描顺序以及因果上下文建模中受限的推理能力。在这项工作中,我们通过引入FUDOKI来挑战基于AR的方法的主导地位,FUDOKI是一个纯粹基于离散流匹配的统一多模态模型,作为传统AR范例的替代方案。通过利用具有动能最优速度的度量诱导概率路径,我们的框架超越了先前基于掩码的损坏过程,从而能够在生成过程中进行具有自校正能力的迭代细化和更丰富的双向上下文集成。为了减轻从头开始训练的高成本,我们从预训练的基于AR的MLLMs初始化FUDOKI,并自适应地过渡到离散流匹配范例。实验结果表明,FUDOKI在视觉理解和图像生成任务中都取得了与最先进的基于AR的MLLMs相当的性能,突出了其作为下一代统一多模态模型的基础的潜力。此外,我们表明,将测试时缩放技术应用于FUDOKI可以产生显着的性能提升,进一步强调了其通过强化学习进行未来增强的前景。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLMs)主要依赖于自回归(AR)架构,这导致了两个主要的痛点。首先,在图像生成方面,AR模型通常采用光栅扫描顺序,这限制了模型捕捉全局上下文信息的能力。其次,AR模型在因果上下文建模方面存在局限性,难以进行复杂的推理和理解。
核心思路:FUDOKI的核心思路是利用离散流匹配(Discrete Flow Matching)来替代传统的自回归架构。通过构建具有动能最优速度的概率路径,FUDOKI能够实现迭代的自校正生成过程,并更好地整合双向上下文信息。这种方法旨在克服AR模型的局限性,提供更灵活和强大的多模态建模能力。
技术框架:FUDOKI的整体框架包括以下几个主要组成部分:1) 一个预训练的自回归MLLM,用于初始化模型参数;2) 一个离散流匹配模块,用于学习数据分布之间的映射关系;3) 一个迭代细化模块,用于逐步优化生成结果;4) 一个双向上下文整合模块,用于捕捉更丰富的上下文信息。训练过程包括两个阶段:首先,使用预训练的AR模型初始化FUDOKI;然后,通过离散流匹配损失函数对模型进行微调,使其适应新的范式。
关键创新:FUDOKI最重要的创新点在于它完全摆脱了自回归架构的束缚,采用了基于离散流匹配的生成方法。与传统的基于掩码的损坏过程不同,FUDOKI利用动能最优速度的概率路径,实现了更高效和灵活的生成过程。此外,FUDOKI还引入了迭代细化和双向上下文整合机制,进一步提升了生成质量和理解能力。
关键设计:FUDOKI的关键设计包括:1) 使用预训练的AR模型进行初始化,以加速训练过程;2) 采用动能最优速度的概率路径,以提高生成效率;3) 设计迭代细化模块,以逐步优化生成结果;4) 实现双向上下文整合模块,以捕捉更丰富的上下文信息;5) 使用离散流匹配损失函数,以优化模型参数。此外,论文还探索了测试时缩放技术,以进一步提升模型性能。
🖼️ 关键图片
📊 实验亮点
FUDOKI在视觉理解和图像生成任务中取得了与最先进的基于AR的MLLMs相当的性能。更重要的是,通过应用测试时缩放技术,FUDOKI的性能得到了显著提升,这表明其具有巨大的潜力,可以通过强化学习等方法进一步优化。这些结果突出了FUDOKI作为下一代统一多模态模型的基础的潜力。
🎯 应用场景
FUDOKI作为一种新型的统一多模态模型,具有广泛的应用前景。它可以应用于图像生成、视觉理解、多模态对话等领域。例如,可以用于生成高质量的图像,理解图像中的内容,以及进行基于图像的问答。此外,FUDOKI还可以作为下一代多模态模型的基础,为未来的研究提供新的思路和方向。
📄 摘要(原文)
The rapid progress of large language models (LLMs) has catalyzed the emergence of multimodal large language models (MLLMs) that unify visual understanding and image generation within a single framework. However, most existing MLLMs rely on autoregressive (AR) architectures, which impose inherent limitations on future development, such as the raster-scan order in image generation and restricted reasoning abilities in causal context modeling. In this work, we challenge the dominance of AR-based approaches by introducing FUDOKI, a unified multimodal model purely based on discrete flow matching, as an alternative to conventional AR paradigms. By leveraging metric-induced probability paths with kinetic optimal velocities, our framework goes beyond the previous masking-based corruption process, enabling iterative refinement with self-correction capability and richer bidirectional context integration during generation. To mitigate the high cost of training from scratch, we initialize FUDOKI from pre-trained AR-based MLLMs and adaptively transition to the discrete flow matching paradigm. Experimental results show that FUDOKI achieves performance comparable to state-of-the-art AR-based MLLMs across both visual understanding and image generation tasks, highlighting its potential as a foundation for next-generation unified multimodal models. Furthermore, we show that applying test-time scaling techniques to FUDOKI yields significant performance gains, further underscoring its promise for future enhancement through reinforcement learning.