Semantic Generative Tuning for Unified Multimodal Models

📄 arXiv: 2605.18714v1 📥 PDF

作者: Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

分类: cs.CV, cs.AI

发布日期: 2026-05-18

备注: 14 pages, 13 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出语义生成调优(SGT)方法,通过图像分割任务提升统一多模态模型的理解和生成能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 生成式后训练 图像分割 语义生成调优 多模态理解 视觉生成 特征对齐 注意力机制

📋 核心要点

  1. 现有统一多模态模型训练中,视觉理解和生成任务的优化相互独立,导致表征空间错位。
  2. 论文提出语义生成调优(SGT)方法,利用图像分割作为生成代理,对齐和协同多模态能力。
  3. 实验结果表明,SGT能够显著提升模型在多模态理解和生成任务上的性能。

📝 摘要(中文)

统一多模态模型(UMMs)旨在将视觉理解和视觉生成整合到单一架构中。然而,目前流行的训练范式分别通过稀疏文本信号优化理解,并通过密集像素目标优化生成。这种解耦策略导致表征空间错位,使视觉理解与生成相互隔离,阻碍了它们的相互促进。本文首次系统地研究了生成式后训练,将分层视觉任务形式化为生成式代理,以弥合UMMs中的隔离。实证研究表明,高级语义任务,特别是图像分割,是最佳代理。与低级任务分散模型对纹理细节的注意力不同,分割提供了结构语义,显著增强了以视觉为中心的感知和生成布局的保真度。基于这些见解,我们提出了一种新的范式——语义生成调优(SGT),它利用分割作为生成代理来对齐和协同多模态能力。机制分析进一步表明,SGT从根本上提高了特征线性可分性,并优化了视觉-文本注意力分配模式。广泛的评估表明,SGT始终如一地提高了主流基准上的多模态理解和生成保真度。

🔬 方法详解

问题定义:统一多模态模型旨在整合视觉理解和生成能力,但现有训练方法将二者解耦,分别使用文本信号和像素目标进行优化。这种解耦导致视觉理解和生成能力无法有效协同,阻碍了模型性能的进一步提升。现有方法缺乏有效的桥梁来连接视觉理解和生成。

核心思路:论文的核心思路是利用生成式后训练,将图像分割等高级语义任务作为生成代理,来对齐和协同多模态能力。图像分割任务能够提供结构化的语义信息,避免模型过度关注纹理细节,从而更好地连接视觉理解和生成。

技术框架:SGT方法主要包含以下几个阶段:首先,使用预训练的统一多模态模型;然后,利用图像分割任务进行生成式后训练,将分割任务作为生成代理;最后,在下游多模态任务上进行微调。整体框架旨在通过分割任务,对齐视觉和文本的表征空间,提升模型的理解和生成能力。

关键创新:SGT的关键创新在于提出了利用图像分割作为生成代理的思路,将高级语义信息引入到多模态模型的训练中。与以往的低级任务或解耦训练方法不同,SGT能够有效地连接视觉理解和生成,提升模型的整体性能。此外,论文还通过机制分析验证了SGT能够提高特征线性可分性,并优化视觉-文本注意力分配模式。

关键设计:SGT的关键设计包括选择图像分割作为生成代理,以及设计相应的损失函数来优化分割任务。具体的损失函数可能包括交叉熵损失或Dice损失等,用于衡量生成分割结果与真实标签之间的差异。此外,论文可能还涉及对预训练模型的微调策略,例如学习率的选择、训练轮数等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SGT方法在多个主流基准测试上取得了显著的性能提升。具体而言,SGT在多模态理解和生成任务上均优于现有方法,证明了其有效性。机制分析表明,SGT能够提高特征线性可分性,并优化视觉-文本注意力分配模式,从而提升模型的性能。

🎯 应用场景

该研究成果可应用于图像描述生成、视觉问答、图像编辑等多个领域。通过提升统一多模态模型的理解和生成能力,可以改善人机交互体验,提高自动化系统的智能化水平。例如,在智能客服领域,可以利用该技术生成更准确、更自然的图像描述,从而更好地理解用户意图。

📄 摘要(原文)

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.