Representation Forcing for Bottleneck-Free Unified Multimodal Models
作者: Yuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu
分类: cs.CV
发布日期: 2026-05-29
备注: Project page: https://yuqingwang1029.github.io/RepresentationForcing
💡 一句话要点
提出表征强制(RF)技术,实现无瓶颈的统一多模态模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 统一多模态模型 表征学习 图像生成 图像理解 自回归模型 无瓶颈模型 视觉表征 扩散模型
📋 核心要点
- 现有统一多模态模型依赖预训练VAE进行图像生成,形成结构瓶颈,限制了模型性能。
- 论文提出表征强制(RF)技术,将视觉表征预测融入模型,消除对外部生成潜在空间的需求。
- 实验表明,RF在图像生成上可与SOTA模型媲美,图像理解上优于VAE变体,提升了模型性能。
📝 摘要(中文)
统一多模态模型(UMMs)旨在用单个模型处理感知和生成任务。然而,现有的UMMs仍然依赖于一个冻结的、单独预训练的VAE进行图像生成,这引入了一个结构瓶颈。直接移除VAE会导致质量下降,因为模型必须从原始像素中同时学习高层结构和低层细节。本文提出了表征强制(Representation Forcing, RF)技术,通过使表征预测成为模型的原生能力来弥补这一差距。具体而言,RF强制解码器自回归地预测视觉表征作为像素之前的中间token;这些token随后保留在上下文中,以指导同一backbone内的像素扩散。通过将表征从感知输出转化为生成目标,RF消除了对任何外部生成潜在空间的需求。实验表明,RF有利于理解和生成。在图像生成方面,我们基于像素空间的RF模型与最先进的基于VAE的统一模型相匹配。在图像理解方面,基于像素空间的RF通常优于其基于VAE的变体。总而言之,这些结果为实现端到端、无瓶颈的UMMs提供了一个有效的步骤。
🔬 方法详解
问题定义:现有统一多模态模型依赖预训练的VAE进行图像生成,这引入了结构性的瓶颈。直接移除VAE会导致生成质量的显著下降,因为模型需要同时从原始像素中学习高层结构和低层细节,这对于模型来说是一个巨大的挑战。因此,如何设计一个无需VAE瓶颈且能有效进行图像生成和理解的统一多模态模型是本文要解决的核心问题。
核心思路:论文的核心思路是将视觉表征预测作为模型的一个原生能力。通过强制解码器自回归地预测视觉表征作为中间token,然后再生成像素,模型可以更好地学习图像的高层结构和低层细节之间的关系。这种方式将表征从感知输出转化为生成目标,从而消除了对外部生成潜在空间的需求。
技术框架:整体框架包含一个编码器和一个解码器。编码器负责提取输入图像的视觉表征。解码器则被强制自回归地预测视觉表征作为中间token,这些token随后被用于指导像素的生成。整个过程在一个统一的backbone中完成,无需额外的VAE模块。
关键创新:最重要的技术创新点在于表征强制(RF)机制。与传统的依赖外部VAE生成潜在空间的方法不同,RF将表征预测融入到模型的生成过程中,使得模型能够更好地学习图像的内在结构和细节。这种方法消除了对外部生成模块的依赖,实现了真正的端到端统一多模态模型。
关键设计:RF的关键设计在于如何将视觉表征预测融入到解码器中。具体来说,解码器首先自回归地预测视觉表征作为中间token,然后将这些token与编码器的输出以及其他上下文信息结合起来,用于指导像素的生成。损失函数包括表征预测的损失和像素生成的损失。网络结构方面,可以使用Transformer等自注意力机制来建模token之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于像素空间的RF模型在图像生成方面与最先进的基于VAE的统一模型相匹配,在图像理解方面通常优于其基于VAE的变体。这些结果验证了RF的有效性,并为实现端到端、无瓶颈的UMMs提供了一个有力的支持。具体性能数据和对比基线信息未知。
🎯 应用场景
该研究成果可应用于图像生成、图像编辑、图像理解等多个领域。例如,可以用于生成高质量的图像,编辑图像的内容,以及理解图像的语义信息。此外,该方法还可以扩展到其他模态,例如文本、音频等,从而实现更强大的多模态应用。未来,该技术有望在智能创作、虚拟现实、人机交互等领域发挥重要作用。
📄 摘要(原文)
Unified multimodal models (UMMs) aim to handle perception and generation in a single model. Yet existing UMMs still rely on a frozen, separately pretrained VAE for image generation, imposing a structural bottleneck. Naively removing it introduces a quality gap, as the model must learn both high-level structure and low-level details from raw pixels. In this paper, we propose Representation Forcing (RF), a technique that closes this gap by making representation prediction a native capability of the model. Concretely, RF forces the decoder to autoregressively predict visual representations as intermediate tokens before pixels; these tokens then stay in context to guide pixel diffusion within the same backbone. By turning representations from perception outputs into generation targets, RF eliminates the need for any external generative latent space. We find that RF benefits both understanding and generation. On image generation, our pixel-space model with RF matches state-of-the-art VAE-based unified models. On image understanding, pixel-space RF generally outperforms its VAE-based variant. Together, these results offer an effective step toward end-to-end, bottleneck-free UMMs.