FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

作者: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang

分类: cs.CV

发布日期: 2026-04-08

💡 一句话要点

FlowInOne：提出统一的多模态生成框架，将所有模态转化为视觉流，实现图像输入/输出。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 视觉提示 Flow Matching 图像编辑 视觉指令跟随

📋 核心要点

传统多模态生成依赖文本驱动，视觉受限于语言，缺乏视觉内部推理和创造能力。
FlowInOne将所有模态转化为视觉提示，构建图像输入/输出的视觉流，消除了跨模态对齐的瓶颈。
实验表明，FlowInOne在统一生成任务中达到SOTA，超越开源和商业模型，并提出了大规模数据集VisPrompt-5M。

📝 摘要（中文）

本文提出FlowInOne框架，旨在将多模态生成统一为一个纯粹的视觉流。该框架将包括文本描述、空间布局和编辑指令在内的所有输入转换为视觉提示，从而实现由单一Flow Matching模型控制的图像输入/输出流程。这种以视觉为中心的公式自然地消除了跨模态对齐瓶颈、噪声调度和特定于任务的架构分支，从而在一个连贯的范例下统一了文本到图像生成、布局引导编辑和视觉指令跟随。为了支持这一框架，作者引入了VisPrompt-5M，这是一个包含500万个视觉提示对的大规模数据集，涵盖了包括物理感知力动力学和轨迹预测在内的各种任务，以及VP-Bench，一个严格策划的基准，用于评估指令保真度、空间精度、视觉真实感和内容一致性。大量实验表明，FlowInOne在所有统一生成任务中都实现了最先进的性能，超越了开源模型和有竞争力的商业系统，为完全以视觉为中心的生成建模奠定了新的基础，其中感知和创造共存于一个连续的视觉空间中。

🔬 方法详解

问题定义：现有的多模态生成方法通常以文本为中心，即语言驱动视觉。这种范式存在局限性，例如难以进行视觉内部的推理和创造，以及跨模态对齐的难题。此外，不同的生成任务（如文本到图像生成、布局引导编辑等）通常需要不同的模型架构和训练流程，缺乏统一性。

核心思路：FlowInOne的核心思路是将所有模态（包括文本、布局、指令等）都转化为视觉提示（Visual Prompts），从而将多模态生成问题转化为一个纯粹的图像到图像的转换问题。通过这种方式，可以避免跨模态对齐的复杂性，并使用单一的Flow Matching模型来处理各种生成任务。

技术框架：FlowInOne的整体框架包括以下几个主要步骤：1) 将各种模态的输入（如文本描述、布局信息）编码为视觉提示。2) 使用Flow Matching模型将输入的视觉提示转换为目标图像。Flow Matching模型通过学习数据分布之间的连续变换来实现图像生成。框架的关键在于如何有效地将不同模态的信息编码为视觉提示，以及如何设计Flow Matching模型来生成高质量的图像。

关键创新：FlowInOne最重要的创新点在于它将多模态生成问题统一为一个纯粹的视觉流问题。这种统一的视角简化了模型设计和训练流程，并使得模型能够处理各种不同的生成任务。此外，VisPrompt-5M数据集的提出也为训练和评估这种视觉中心的多模态生成模型提供了数据支持。

关键设计：FlowInOne的关键设计包括：1) 使用特定的编码器将不同模态的信息转换为视觉提示。具体编码器的选择可能取决于输入模态的类型。2) 使用Flow Matching模型作为生成器。Flow Matching模型通过学习数据分布之间的连续变换来实现图像生成。3) 使用VP-Bench基准来评估模型的性能，VP-Bench关注指令保真度、空间精度、视觉真实感和内容一致性等指标。具体的损失函数和网络结构细节在论文中可能有所描述，但此处无法得知。

🖼️ 关键图片

📊 实验亮点

FlowInOne在统一生成任务中取得了SOTA性能，超越了现有的开源模型和商业系统。具体而言，FlowInOne在VP-Bench基准上，在指令保真度、空间精度、视觉真实感和内容一致性等方面均取得了显著提升。VisPrompt-5M数据集的发布也为后续研究提供了宝贵的数据资源。

🎯 应用场景

FlowInOne具有广泛的应用前景，包括图像编辑、内容创作、虚拟现实、游戏开发等领域。例如，用户可以通过文本描述或草图来编辑图像，或者根据给定的布局生成符合要求的图像。该研究有望推动多模态生成技术的发展，并为用户提供更加便捷和强大的图像生成工具。

📄 摘要（原文）

Multimodal generation has long been dominated by text-driven pipelines where language dictates vision but cannot reason or create within it. We challenge this paradigm by asking whether all modalities, including textual descriptions, spatial layouts, and editing instructions, can be unified into a single visual representation. We present FlowInOne, a framework that reformulates multimodal generation as a purely visual flow, converting all inputs into visual prompts and enabling a clean image-in, image-out pipeline governed by a single flow matching model. This vision-centric formulation naturally eliminates cross-modal alignment bottlenecks, noise scheduling, and task-specific architectural branches, unifying text-to-image generation, layout-guided editing, and visual instruction following under one coherent paradigm. To support this, we introduce VisPrompt-5M, a large-scale dataset of 5 million visual prompt pairs spanning diverse tasks including physics-aware force dynamics and trajectory prediction, alongside VP-Bench, a rigorously curated benchmark assessing instruction faithfulness, spatial precision, visual realism, and content consistency. Extensive experiments demonstrate that FlowInOne achieves state-of-the-art performance across all unified generation tasks, surpassing both open-source models and competitive commercial systems, establishing a new foundation for fully vision-centric generative modeling where perception and creation coexist within a single continuous visual space.

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理