Semantic Generative Tuning for Unified Multimodal Models

作者: Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

分类: cs.CV, cs.AI

发布日期: 2026-05-18

备注: 14 pages, 13 figures

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出语义生成调优(SGT)方法，通过图像分割任务提升统一多模态模型的理解和生成能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 生成式后训练 图像分割 语义生成调优 多模态理解 视觉生成 特征对齐 注意力机制

📋 核心要点

现有统一多模态模型训练中，视觉理解和生成任务的优化相互独立，导致表征空间错位。
论文提出语义生成调优(SGT)方法，利用图像分割作为生成代理，对齐和协同多模态能力。
实验结果表明，SGT能够显著提升模型在多模态理解和生成任务上的性能。

📝 摘要（中文）

统一多模态模型(UMMs)旨在将视觉理解和视觉生成整合到单一架构中。然而，目前流行的训练范式分别通过稀疏文本信号优化理解，并通过密集像素目标优化生成。这种解耦策略导致表征空间错位，使视觉理解与生成相互隔离，阻碍了它们的相互促进。本文首次系统地研究了生成式后训练，将分层视觉任务形式化为生成式代理，以弥合UMMs中的隔离。实证研究表明，高级语义任务，特别是图像分割，是最佳代理。与低级任务分散模型对纹理细节的注意力不同，分割提供了结构语义，显著增强了以视觉为中心的感知和生成布局的保真度。基于这些见解，我们提出了一种新的范式——语义生成调优(SGT)，它利用分割作为生成代理来对齐和协同多模态能力。机制分析进一步表明，SGT从根本上提高了特征线性可分性，并优化了视觉-文本注意力分配模式。广泛的评估表明，SGT始终如一地提高了主流基准上的多模态理解和生成保真度。

🔬 方法详解

问题定义：统一多模态模型旨在整合视觉理解和生成能力，但现有训练方法将二者解耦，分别使用文本信号和像素目标进行优化。这种解耦导致视觉理解和生成能力无法有效协同，阻碍了模型性能的进一步提升。现有方法缺乏有效的桥梁来连接视觉理解和生成。

核心思路：论文的核心思路是利用生成式后训练，将图像分割等高级语义任务作为生成代理，来对齐和协同多模态能力。图像分割任务能够提供结构化的语义信息，避免模型过度关注纹理细节，从而更好地连接视觉理解和生成。

技术框架：SGT方法主要包含以下几个阶段：首先，使用预训练的统一多模态模型；然后，利用图像分割任务进行生成式后训练，将分割任务作为生成代理；最后，在下游多模态任务上进行微调。整体框架旨在通过分割任务，对齐视觉和文本的表征空间，提升模型的理解和生成能力。

关键创新：SGT的关键创新在于提出了利用图像分割作为生成代理的思路，将高级语义信息引入到多模态模型的训练中。与以往的低级任务或解耦训练方法不同，SGT能够有效地连接视觉理解和生成，提升模型的整体性能。此外，论文还通过机制分析验证了SGT能够提高特征线性可分性，并优化视觉-文本注意力分配模式。

关键设计：SGT的关键设计包括选择图像分割作为生成代理，以及设计相应的损失函数来优化分割任务。具体的损失函数可能包括交叉熵损失或Dice损失等，用于衡量生成分割结果与真实标签之间的差异。此外，论文可能还涉及对预训练模型的微调策略，例如学习率的选择、训练轮数等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SGT方法在多个主流基准测试上取得了显著的性能提升。具体而言，SGT在多模态理解和生成任务上均优于现有方法，证明了其有效性。机制分析表明，SGT能够提高特征线性可分性，并优化视觉-文本注意力分配模式，从而提升模型的性能。

🎯 应用场景

该研究成果可应用于图像描述生成、视觉问答、图像编辑等多个领域。通过提升统一多模态模型的理解和生成能力，可以改善人机交互体验，提高自动化系统的智能化水平。例如，在智能客服领域，可以利用该技术生成更准确、更自然的图像描述，从而更好地理解用户意图。

📄 摘要（原文）

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.

Semantic Generative Tuning for Unified Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理