Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

作者: Zeyu Liu, Zanlin Ni, Yang Yue, Cheng Da, Huan Yang, Di Zhang, Kun Gai, Gao Huang

分类: cs.CV, cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出UNO框架，通过理解监督引导统一多模态模型的视觉生成能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 图像生成 视觉理解 后训练策略 多任务学习 特征对齐

📋 核心要点

现有统一多模态模型多采用解耦的理解与生成架构，导致两者缺乏深度协同，难以发挥多模态任务间的互补优势。
提出UNO后训练框架，将视觉理解任务转化为监督信号，通过语义抽象与结构细节回归引导生成模型的特征表示。
实验证明，该方法在图像生成与编辑任务中显著提升了生成质量，验证了理解能力对生成过程的强力催化作用。

📝 摘要（中文）

统一多模态模型旨在弥合视觉理解与生成之间的鸿沟。然而，当前最先进的模型多采用解耦的理解与生成组件，这种设计虽在单一任务上表现出色，却削弱了两者间的互补性，使得潜在的协同效应难以发挥。为此，本文提出了“理解导向后训练”（UNO）框架，这是一种轻量级方案，不仅将理解视为独立任务，更将其作为直接的监督信号来引导生成表示。通过引入编码语义抽象（图像描述）和结构细节（视觉回归）的目标函数，该方法实现了从理解到生成的有效梯度流。在图像生成与编辑任务上的广泛实验表明，理解能力可作为提升生成质量的有效催化剂。

🔬 方法详解

问题定义：当前多模态模型在理解（如VQA、Captioning）与生成（如Diffusion）模块上往往是物理隔离的，缺乏深层的特征交互，导致生成模型无法充分利用理解模块提取的丰富语义信息，限制了生成任务的上限。

核心思路：论文提出将“理解”作为一种监督信号注入到生成过程中。通过在生成模型的训练阶段引入理解任务的梯度，强制生成表示学习到更具语义抽象能力和结构感知能力的特征，从而实现理解与生成的协同优化。

技术框架：UNO框架采用轻量级后训练策略，在保持生成模型主体架构不变的前提下，通过多任务学习目标对模型进行微调。框架包含语义抽象分支（Captioning）和结构细节分支（Visual Regression），将理解任务的损失函数反向传播至生成模型的特征空间。

关键创新：核心创新在于将理解任务从“辅助任务”提升为“引导信号”。不同于传统的联合训练，UNO通过显式的梯度流设计，确保生成模型在生成过程中能够实时感知并对齐语义与结构信息，打破了生成与理解的壁垒。

关键设计：设计了双重监督机制：一是基于Captioning的语义抽象损失，用于强化模型对图像全局语义的理解；二是基于视觉回归的结构细节损失，用于精确控制图像的几何与空间布局。通过加权平衡这些损失函数，实现生成质量的精细化调控。

🖼️ 关键图片

📊 实验亮点

实验结果显示，UNO框架在图像生成与编辑基准测试中表现优异。相比于基线模型，UNO在保持生成多样性的同时，显著提升了生成图像与文本描述的语义对齐度（CLIP Score提升明显），并在结构细节的还原度上表现出更强的鲁棒性，证明了理解监督对生成质量的显著催化作用。

🎯 应用场景

该研究适用于需要高语义一致性和结构精确性的多模态生成场景，如高质量图像合成、基于文本的图像编辑、以及复杂场景下的视觉内容创作。其核心价值在于提升生成模型对复杂指令的理解深度，未来有望在艺术创作、数字媒体生成及交互式设计领域产生深远影响。

📄 摘要（原文）

Unified multimodal models are envisioned to bridge the gap between understanding and generation. Yet, to achieve competitive performance, state-of-the-art models adopt largely decoupled understanding and generation components. This design, while effective for individual tasks, weakens the connection required for mutual enhancement, leaving the potential synergy empirically uncertain. We propose to explicitly restore this synergy by introducing Understanding-Oriented Post-Training (UNO), a lightweight framework that treats understanding not only as a distinct task, but also a direct supervisory signal to steer generative representations. By incorporating objectives that encode semantic abstraction (captioning) and structural details (visual regression), we enable effective gradient flow from understanding to generation. Extensive experiments on image generation and editing demonstrate that understanding can serve as an effective catalyst for generation.

Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理