Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

作者: Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Zhonghua Wu, Qingyi Tao, Wentao Liu, Wei Li, Chen Change Loy

分类: cs.CV

发布日期: 2025-03-27 (更新: 2025-04-22)

🔗 代码/项目: GITHUB

💡 一句话要点

提出Harmon，一个统一的自回归框架，用于多模态理解和生成任务。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉理解 图像生成 掩码自回归 统一框架

📋 核心要点

现有方法在统一视觉理解和生成时，倾向于图像内在特征，忽略了语义信息，导致理解性能下降。
Harmon利用掩码自回归(MAR)编码器学习丰富的语义信息，并通过共享编码器协调理解和生成任务。
Harmon通过三阶段训练，在图像生成和理解任务上均取得了SOTA结果，与专用语义编码器性能相当。

📝 摘要（中文）

将视觉理解和生成统一在单一多模态框架中仍然是一个重大挑战，因为这两个本质上异构的任务需要不同粒度的表示。目前使用向量量化(VQ)或变分自编码器(VAE)进行统一视觉表示的方法，优先考虑内在的图像特征而非语义，从而损害了理解性能。本文受到掩码图像建模(MIM)的启发，该方法通过掩码和重建预训练学习丰富的语义，并成功扩展到掩码自回归(MAR)图像生成。对MAR编码器的初步研究表明，其具有出色的线性探测精度和对视觉概念的精确特征响应，这表明MAR除了其原始生成角色外，还具有视觉理解任务的潜力。基于这些见解，我们提出了Harmon，一个统一的自回归框架，它通过共享的MAR编码器协调理解和生成任务。通过逐步优化理解和生成能力的三阶段训练过程，Harmon在GenEval、MJHQ30K和WISE基准测试中实现了最先进的图像生成结果，同时在图像理解基准测试中与具有专用语义编码器（例如，Janus）的方法的性能相匹配。我们的代码和模型将在https://github.com/wusize/Harmon上提供。

🔬 方法详解

问题定义：论文旨在解决视觉理解和生成任务在统一框架下的表示鸿沟问题。现有方法如VQ和VAE侧重于图像的低级特征，忽略了高级语义信息，导致在视觉理解任务中表现不佳。因此，需要一种能够同时兼顾图像生成和理解的统一表示方法。

核心思路：论文的核心思路是利用掩码自回归（MAR）编码器学习图像的语义表示。MAR通过掩码图像建模（MIM）预训练，能够捕捉图像的上下文信息和语义关系。作者发现MAR编码器在视觉概念上具有精确的特征响应，因此可以作为统一理解和生成的桥梁。

技术框架：Harmon框架包含一个共享的MAR编码器，以及分别用于理解和生成的下游任务模块。整个训练过程分为三个阶段：1)预训练MAR编码器，使其具备基本的图像表示能力；2)微调MAR编码器，使其更好地适应理解任务；3)联合训练MAR编码器和生成模块，优化生成能力。

关键创新：Harmon的关键创新在于利用MAR编码器作为统一的视觉表示，从而避免了为理解和生成任务分别设计不同的编码器。这种共享表示的方式不仅简化了模型结构，而且能够促进理解和生成任务之间的知识迁移。

关键设计：Harmon的关键设计包括：1)使用掩码比例为0.75的掩码策略进行MAR预训练；2)采用交叉熵损失函数优化理解任务；3)使用对抗损失和L1损失联合优化生成任务；4)使用AdamW优化器进行训练，并设置合适的学习率和权重衰减。

🖼️ 关键图片

📊 实验亮点

Harmon在GenEval、MJHQ30K和WISE等图像生成基准测试中取得了SOTA结果，表明其具有强大的图像生成能力。同时，在图像理解基准测试中，Harmon的性能与具有专用语义编码器的方法（如Janus）相匹配，证明了其在视觉理解方面的有效性。这些结果表明，Harmon成功地统一了视觉理解和生成任务。

🎯 应用场景

Harmon框架在多模态任务中具有广泛的应用前景，例如图像描述、视觉问答、图像编辑等。通过统一视觉理解和生成，可以实现更智能、更灵活的多模态交互。此外，该研究对于推动通用人工智能的发展具有重要意义，为构建能够同时理解和创造的AI系统提供了新的思路。

📄 摘要（原文）

Unifying visual understanding and generation within a single multimodal framework remains a significant challenge, as the two inherently heterogeneous tasks require representations at different levels of granularity. Current approaches that utilize vector quantization (VQ) or variational autoencoders (VAE) for unified visual representation prioritize intrinsic imagery features over semantics, compromising understanding performance. In this work, we take inspiration from masked image modelling (MIM) that learns rich semantics via a mask-and-reconstruct pre-training and its successful extension to masked autoregressive (MAR) image generation. A preliminary study on the MAR encoder's representation reveals exceptional linear probing accuracy and precise feature response to visual concepts, which indicates MAR's potential for visual understanding tasks beyond its original generation role. Based on these insights, we present \emph{Harmon}, a unified autoregressive framework that harmonizes understanding and generation tasks with a shared MAR encoder. Through a three-stage training procedure that progressively optimizes understanding and generation capabilities, Harmon achieves state-of-the-art image generation results on the GenEval, MJHQ30K and WISE benchmarks while matching the performance of methods with dedicated semantic encoders (e.g., Janus) on image understanding benchmarks. Our code and models will be available at https://github.com/wusize/Harmon.

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理