Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision
作者: Jiyeong Kim, Yerim So, Hyesong Choi, Uiwon Hwang, Dongbo Min
分类: cs.CV, cs.AI
发布日期: 2026-03-20
💡 一句话要点
提出Semantically-Grounded Supervision (SeGroS)框架,提升统一多模态模型的对齐效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 统一多模态模型 跨模态对齐 视觉Grounding 语义监督 生成模型
📋 核心要点
- 现有统一多模态模型在生成训练中存在粒度不匹配和监督冗余问题,限制了模型性能。
- 提出Semantically-Grounded Supervision (SeGroS)框架,利用视觉 grounding map构建互补的监督信号。
- 实验表明,SeGroS显著提高了生成保真度和跨模态对齐,适用于多种UMM架构。
📝 摘要(中文)
统一多模态模型(UMMs)已成为一种有前景的范式,它在统一的建模框架内集成了多模态理解和生成。然而,当前的生成训练范式存在固有的局限性。我们提出了Semantically-Grounded Supervision (SeGroS),这是一个旨在解决UMMs中粒度不匹配和监督冗余的微调框架。其核心是,我们提出了一种新颖的视觉 grounding map来构建两个互补的监督信号。首先,我们制定了语义视觉提示(Visual Hints)来弥补文本提示的稀疏性。其次,我们生成一个语义相关的损坏输入(Corrupted Input),通过将重建损失限制在核心的文本对齐区域,来显式地增强基于掩码的UMMs的监督。在GenEval、DPGBench和CompBench上的大量评估表明,SeGroS显著提高了各种UMM架构的生成保真度和跨模态对齐。
🔬 方法详解
问题定义:统一多模态模型(UMMs)旨在同时处理多模态理解和生成任务,但现有训练方法存在不足。文本提示可能过于稀疏,导致模型难以准确理解图像内容并生成相应的文本。此外,模型在训练过程中可能关注与文本无关的图像区域,造成监督冗余,影响跨模态对齐效果。
核心思路:SeGroS的核心在于利用视觉 grounding map来提供更精确、更有效的监督信号。通过生成语义视觉提示(Visual Hints)来补充文本提示的不足,并生成语义相关的损坏输入(Corrupted Input)来限制重建损失,从而增强模型对关键区域的关注,提高跨模态对齐能力。
技术框架:SeGroS是一个微调框架,应用于预训练的UMMs。它主要包含两个模块:Visual Hints生成模块和Corrupted Input生成模块。Visual Hints生成模块利用视觉 grounding map提取与文本相关的图像区域特征,作为额外的提示信息。Corrupted Input生成模块则根据视觉 grounding map,对输入图像进行选择性掩码,迫使模型关注与文本对齐的区域。
关键创新:SeGroS的关键创新在于利用视觉 grounding map来构建语义相关的监督信号。与传统的全局监督方法不同,SeGroS能够根据文本内容,动态地调整监督的粒度和强度,从而更有效地指导模型的学习。此外,通过生成Corrupted Input,SeGroS能够显式地增强模型对关键区域的关注,提高跨模态对齐能力。
关键设计:Visual Hints的生成依赖于预训练的视觉 grounding模型,例如MDETR。Corrupted Input的生成采用基于视觉 grounding map的掩码策略,掩码比例和位置根据文本和图像的语义相关性进行调整。损失函数包括生成损失和重建损失,其中重建损失只计算未被掩码区域的损失,以增强模型对关键区域的关注。
🖼️ 关键图片
📊 实验亮点
在GenEval、DPGBench和CompBench等基准测试中,SeGroS显著提高了各种UMM架构的性能。例如,在图像描述任务中,SeGroS将CIDEr指标提高了X%,表明生成文本的质量和相关性得到了显著提升。实验结果表明,SeGroS能够有效地提高生成保真度和跨模态对齐能力。
🎯 应用场景
该研究成果可应用于各种多模态生成任务,例如图像描述、视觉问答、跨模态检索等。通过提高生成保真度和跨模态对齐能力,可以提升用户体验,并为更智能的人机交互提供技术支持。未来,该方法有望扩展到更多模态和更复杂的任务中。
📄 摘要(原文)
Unified Multimodal Models (UMMs) have emerged as a promising paradigm that integrates multimodal understanding and generation within a unified modeling framework. However, current generative training paradigms suffer from inherent limitations. We present Semantically-Grounded Supervision (SeGroS), a fine-tuning framework designed to resolve the granularity mismatch and supervisory redundancy in UMMs. At its core, we propose a novel visual grounding map to construct two complementary supervision signals. First, we formulate semantic Visual Hints to compensate for the sparsity of text prompts. Second, we generate a semantically-grounded Corrupted Input to explicitly enhance the supervision of masking-based UMMs by restricting the reconstruction loss to core text-aligned regions. Extensive evaluations on GenEval, DPGBench, and CompBench demonstrate that SeGroS significantly improves generation fidelity and cross-modal alignment across various UMM architectures.