Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

📄 arXiv: 2603.12793v1 📥 PDF

作者: Yichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 17 pages, 5 figures


💡 一句话要点

Cheers:解耦图像细节与语义表示,实现统一的多模态理解与生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图像生成 视觉理解 Transformer 解耦表示

📋 核心要点

  1. 多模态模型难以兼顾视觉理解和生成,因为二者对解码方式和视觉表示的需求不同。
  2. Cheers通过解耦图像的patch细节和语义表示,利用门控残差连接,提升生成图像的质量。
  3. Cheers在多个基准测试中达到或超过了现有先进模型,同时实现了4倍的token压缩,降低了训练成本。

📝 摘要(中文)

本文提出Cheers,一个统一的多模态模型,旨在解决视觉理解和生成任务中解码机制和视觉表示不匹配的问题。Cheers通过解耦patch级别的细节信息和语义表示,稳定多模态理解的语义信息,并通过门控细节残差提高图像生成的保真度。Cheers包含三个关键组件:(i) 统一的视觉tokenizer,将图像潜在状态编码和压缩为语义token,以实现高效的LLM条件控制;(ii) 基于LLM的Transformer,统一了文本生成的自回归解码和图像生成的扩散解码;(iii) 级联流匹配头,首先解码视觉语义,然后注入来自视觉tokenizer的语义门控细节残差,以细化高频内容。在多个基准测试上的实验表明,Cheers在视觉理解和生成方面与先进的UMM模型相匹配或超越。Cheers还实现了4倍的token压缩,从而能够更有效地进行高分辨率图像编码和生成。值得注意的是,Cheers在GenEval和MMBench等基准测试中优于Tar-1.5B,而训练成本仅为其20%,表明其高效的统一多模态建模能力。

🔬 方法详解

问题定义:现有的统一多模态模型难以同时优化视觉理解和生成任务,因为这两个任务需要不同的解码方式和视觉表示。视觉理解侧重于提取图像的语义信息,而图像生成则需要重建图像的细节信息。这种不匹配导致模型在两个任务上都难以达到最佳性能。

核心思路:Cheers的核心思路是将图像的patch级别细节信息与语义表示解耦。模型首先提取图像的语义信息,然后通过门控机制将细节信息注入到生成过程中。这样可以保证语义表示的稳定性,同时提高生成图像的保真度。

技术框架:Cheers包含三个主要模块:(1) 统一的视觉Tokenizer:将图像潜在状态编码和压缩为语义token,用于LLM的条件控制。(2) 基于LLM的Transformer:统一了文本生成的自回归解码和图像生成的扩散解码。(3) 级联流匹配头:首先解码视觉语义,然后注入来自视觉Tokenizer的语义门控细节残差,以细化高频内容。整个流程是先提取语义,再逐步注入细节,从而实现高质量的图像生成。

关键创新:Cheers的关键创新在于解耦了图像的语义表示和细节信息,并使用门控残差连接将细节信息注入到生成过程中。这种解耦使得模型可以更好地平衡视觉理解和生成任务的需求,从而在两个任务上都取得更好的性能。此外,4倍token压缩也提高了效率。

关键设计:视觉Tokenizer使用可学习的码本将图像潜在状态量化为离散的token。LLM采用标准的Transformer架构。级联流匹配头使用多个流匹配层逐步细化生成图像。门控机制使用sigmoid函数控制细节信息的注入量。损失函数包括文本生成的交叉熵损失和图像生成的流匹配损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Cheers在GenEval和MMBench等基准测试中优于Tar-1.5B,而训练成本仅为其20%。Cheers还实现了4倍的token压缩,从而能够更有效地进行高分辨率图像编码和生成。这些结果表明,Cheers在视觉理解和生成方面具有显著的优势,并且具有很高的效率。

🎯 应用场景

Cheers具有广泛的应用前景,包括图像编辑、图像生成、视觉问答、图像描述等。该模型可以用于生成高质量的图像,也可以用于理解图像的内容并生成相关的文本描述。此外,Cheers的token压缩技术可以用于加速高分辨率图像的编码和生成,从而提高效率。

📄 摘要(原文)

A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.