Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
作者: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou
分类: cs.CV
发布日期: 2026-02-12
💡 一句话要点
UniDFlow:统一离散流匹配框架,实现多模态推理与生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 离散流匹配 生成模型 图像编辑 零样本学习
📋 核心要点
- 现有方法在多模态任务中常存在目标干扰和表征纠缠问题,限制了模型性能和泛化能力。
- UniDFlow通过解耦理解和生成过程,并引入参考偏好对齐,有效提升了多模态任务的保真度和可控性。
- UniDFlow在多个基准测试中达到SOTA,并在多种零样本任务中展现出强大的泛化能力,无需特定任务训练。
📝 摘要(中文)
本文提出了一种统一的离散流匹配框架UniDFlow,用于多模态理解、生成和编辑。它通过任务特定的低秩适配器解耦了理解和生成过程,避免了目标干扰和表征纠缠。同时,一种新颖的基于参考的多模态偏好对齐方法优化了相同条件下的相对结果,从而在无需大规模重新训练的情况下提高了保真度和可控性。UniDFlow在八个基准测试中取得了SOTA性能,并在诸如图像修复、上下文图像生成、基于参考的编辑和组合生成等任务中表现出强大的零样本泛化能力,尽管没有经过明确的任务特定训练。
🔬 方法详解
问题定义:现有的多模态理解和生成模型常常面临目标干扰和表征纠缠的问题。具体来说,模型在同时进行理解和生成时,容易受到不同任务目标的影响,导致学习到的表征不够纯粹,难以泛化到新的任务上。此外,现有方法在控制生成结果的保真度和可控性方面也存在挑战,尤其是在需要参考其他模态信息进行生成或编辑时。
核心思路:UniDFlow的核心思路是将多模态理解和生成过程解耦,并通过任务特定的低秩适配器来实现。这种解耦避免了不同任务目标之间的干扰,使得模型可以学习到更纯粹、更具泛化能力的表征。此外,UniDFlow还引入了一种基于参考的多模态偏好对齐方法,通过优化相同条件下的相对结果,来提高生成结果的保真度和可控性。
技术框架:UniDFlow的整体框架包含以下几个主要模块:1) 多模态编码器:用于将不同模态的输入信息编码成统一的表征;2) 任务特定低秩适配器:用于将统一表征适配到不同的任务上,实现理解和生成过程的解耦;3) 离散流匹配模块:用于学习从噪声到数据的映射关系,实现生成过程;4) 基于参考的多模态偏好对齐模块:用于优化生成结果,提高保真度和可控性。整个流程是,首先通过编码器提取多模态特征,然后使用适配器进行任务解耦,接着通过离散流匹配生成结果,最后通过偏好对齐进行优化。
关键创新:UniDFlow的关键创新在于以下几点:1) 统一的离散流匹配框架:将多模态理解、生成和编辑统一到一个框架下;2) 任务特定的低秩适配器:解耦理解和生成过程,避免目标干扰和表征纠缠;3) 基于参考的多模态偏好对齐:优化相对结果,提高保真度和可控性。与现有方法相比,UniDFlow的主要区别在于其解耦的设计和偏好对齐策略,这使得它能够在无需大规模重新训练的情况下,实现更好的性能和泛化能力。
关键设计:UniDFlow的关键设计包括:1) 低秩适配器的秩的选择:需要根据任务的复杂度和数据量进行调整;2) 离散流匹配的采样策略:影响生成结果的多样性和质量;3) 偏好对齐的损失函数:需要仔细设计,以平衡保真度和可控性。具体来说,论文可能使用了对比损失或排序损失来优化偏好对齐。此外,网络结构的选择(例如Transformer)和训练数据的预处理方式也会影响最终的性能。
📊 实验亮点
UniDFlow在八个基准测试中取得了SOTA性能,证明了其优越性。此外,UniDFlow在图像修复、上下文图像生成、基于参考的编辑和组合生成等任务中表现出强大的零样本泛化能力,无需特定任务训练。这些结果表明UniDFlow具有很强的实用价值和潜力。
🎯 应用场景
UniDFlow具有广泛的应用前景,例如图像修复、图像编辑、文本到图像生成、多模态对话等。该研究可以应用于创意设计、内容生成、智能助手等领域,提升用户体验和工作效率。未来,UniDFlow有望进一步扩展到更多模态和任务,成为通用的人工智能解决方案。
📄 摘要(原文)
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.