Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

📄 arXiv: 2601.21406v1 📥 PDF

作者: Zihan Su, Hongyang Wei, Kangrui Cen, Yong Wang, Guanhua Chen, Chun Yuan, Xiangxiang Chu

分类: cs.CV, cs.LG

发布日期: 2026-01-29


💡 一句话要点

UniMRG:通过多表示生成增强统一多模态模型的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 多表示学习 生成式学习 视觉理解 后训练

📋 核心要点

  1. 现有统一多模态模型在利用生成能力提升理解能力方面探索不足,限制了模型性能。
  2. UniMRG通过训练模型生成图像的像素、深度和分割等多重表示,从而学习更全面的视觉信息。
  3. 实验表明,UniMRG能显著提升模型在细粒度感知、空间理解和生成能力方面的表现。

📝 摘要(中文)

统一多模态模型(UMMs)旨在单一框架内集成视觉理解和生成能力,最终目标是实现理解和生成的相互促进。虽然最近的后训练方法已成功利用理解来增强生成,但利用生成来提升理解的反向探索仍不足。本文提出UniMRG(统一多表示生成),一种简单有效的、与架构无关的后训练方法,通过结合辅助生成任务来增强UMMs的理解能力。具体而言,我们训练UMMs生成输入图像的多个内在表示,包括像素(重建)、深度(几何)和分割(结构),以及标准的视觉理解目标。通过综合这些不同的表示,UMMs能够捕获关于外观、空间关系和结构布局的互补信息,从而对视觉输入产生更深入和全面的理解。在各种UMM架构上的大量实验表明,我们的方法显著增强了细粒度感知,减少了幻觉,并改善了空间理解,同时还提升了生成能力。

🔬 方法详解

问题定义:统一多模态模型(UMMs)旨在整合视觉理解和生成能力,但现有方法主要集中于利用理解增强生成,而忽略了利用生成反哺理解。这导致UMMs在理解视觉输入时,缺乏对图像内在结构、几何信息和空间关系的深入认知,从而影响了其整体性能。现有方法的痛点在于未能充分挖掘生成任务在提升理解能力方面的潜力。

核心思路:UniMRG的核心思路是通过引入多表示生成任务,迫使UMMs学习图像的多种内在表示,包括像素、深度和分割。这些表示分别对应图像的外观、几何信息和结构布局。通过综合这些互补信息,UMMs可以建立对视觉输入更全面和深入的理解。这种设计旨在利用生成任务作为一种辅助手段,提升UMMs的理解能力。

技术框架:UniMRG是一种后训练方法,可以应用于各种UMM架构。其整体流程如下:首先,输入图像被送入UMM模型。然后,模型同时执行视觉理解任务(例如图像分类、目标检测)和多表示生成任务(像素重建、深度估计、语义分割)。模型通过最小化理解任务和生成任务的损失函数进行训练。在推理阶段,模型可以利用学习到的多表示知识来提升理解和生成能力。

关键创新:UniMRG最重要的创新点在于提出了利用多表示生成来增强UMMs理解能力的思想。与现有方法仅关注利用理解增强生成不同,UniMRG开辟了一条新的研究方向,即利用生成任务作为一种辅助手段,提升UMMs的理解能力。这种方法能够使UMMs学习到更全面和深入的视觉信息,从而提升其整体性能。

关键设计:UniMRG的关键设计包括:1) 选择像素、深度和分割作为多表示生成的目标,因为它们分别对应图像的外观、几何信息和结构布局,能够提供互补的信息。2) 使用标准的损失函数(例如L1损失、交叉熵损失)来训练生成任务。3) 平衡理解任务和生成任务的损失权重,以确保模型能够同时学习到理解和生成能力。4) UniMRG是一种与架构无关的方法,可以应用于各种UMM架构,例如ViT、Transformer等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UniMRG能够显著提升UMMs在细粒度感知、空间理解和生成能力方面的表现。例如,在图像分割任务上,UniMRG能够将性能提升高达5%。此外,UniMRG还能够有效减少UMMs在生成图像时的幻觉现象。与现有方法相比,UniMRG在多个任务上都取得了显著的性能提升,证明了其有效性。

🎯 应用场景

UniMRG具有广泛的应用前景,例如可以应用于智能机器人、自动驾驶、图像编辑、视频分析等领域。通过提升UMMs的理解能力,UniMRG可以使这些应用更加智能和可靠。例如,在自动驾驶中,UniMRG可以帮助车辆更好地理解周围环境,从而做出更安全的决策。在图像编辑中,UniMRG可以帮助用户更精确地编辑图像,从而获得更好的效果。未来,UniMRG有望成为UMMs领域的一项重要技术。

📄 摘要(原文)

Unified Multimodal Models (UMMs) integrate both visual understanding and generation within a single framework. Their ultimate aspiration is to create a cycle where understanding and generation mutually reinforce each other. While recent post-training methods have successfully leveraged understanding to enhance generation, the reverse direction of utilizing generation to improve understanding remains largely unexplored. In this work, we propose UniMRG (Unified Multi-Representation Generation), a simple yet effective architecture-agnostic post-training method. UniMRG enhances the understanding capabilities of UMMs by incorporating auxiliary generation tasks. Specifically, we train UMMs to generate multiple intrinsic representations of input images, namely pixel (reconstruction), depth (geometry), and segmentation (structure), alongside standard visual understanding objectives. By synthesizing these diverse representations, UMMs capture complementary information regarding appearance, spatial relations, and structural layout. Consequently, UMMs develop a deeper and more comprehensive understanding of visual inputs. Extensive experiments across diverse UMM architectures demonstrate that our method notably enhances fine-grained perception, reduces hallucinations, and improves spatial understanding, while simultaneously boosting generation capabilities.