Unified Multimodal Models as Auto-Encoders

📄 arXiv: 2509.09666 📥 PDF

作者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Haochen Wang, Zhendong Wang, Bin Lin, Hao Li, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出Unified-GRPO,通过自编码器视角和强化学习统一优化图像到文本和文本到图像任务。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图像到文本 文本到图像 自编码器 强化学习

📋 核心要点

  1. 现有图像到文本和文本到图像任务通常独立优化,忽略了它们内在的联系和相互促进的潜力。
  2. 论文提出一种基于自编码器视角的统一框架,利用文本作为中间表示,通过重建损失联合优化两个任务。
  3. 实验表明,该方法能有效提升图像到文本的细粒度视觉感知和文本到图像的保真度和复杂指令遵循能力。

📝 摘要(中文)

图像到文本(I2T)理解和文本到图像(T2I)生成是两个基础且重要的多模态任务,但传统上它们是孤立的。尽管它们之间存在内在联系,但现有方法通常独立优化它们,错失了相互促进的机会。本文提出,这两个任务可以在共享的自编码器视角下连接起来,其中文本充当桥接两个方向的中间潜在表示——将图像编码为文本语义(I2T)和将文本解码回图像(T2I)。核心思想是,如果编码器真正“理解”图像,它应该捕获所有必要的结构;如果解码器真正“理解”文本,它应该忠实地恢复该结构。基于此,提出Unified-GRPO,一种基于强化学习的后训练方法,通过重建奖励联合优化两个模块,最大化输入图像和生成图像之间的语义一致性。在这种重建目标下,鼓励编码器从输入图像中提取尽可能准确和全面的语义信息,以最大化重建质量,同时优化解码器以基于编码器的先验生成,从而实现自我进化改进。实验结果表明,使用文本作为中间表示并在重建RL范式下训练有效地有利于I2T和T2I。I2T模块获得了更强的细粒度视觉感知,例如小物体识别、定位等,而其密集嵌入和语言先验反过来提供了更丰富的语义信号,从而提高了T2I的保真度和复杂指令遵循。这些结果表明,重建RL在自编码框架内建立了相互增强的跨模态协同作用。

🔬 方法详解

问题定义:现有图像到文本(I2T)理解和文本到图像(T2I)生成任务通常被独立优化,忽略了它们之间内在的联系。这种孤立的优化方式无法充分利用两个任务之间的互补信息,限制了模型性能的提升。例如,I2T模型可能缺乏细粒度的视觉感知能力,而T2I模型可能难以生成具有高保真度和复杂语义的图像。

核心思路:论文的核心思路是将I2T和T2I任务统一到一个自编码器的框架下。图像首先被编码成文本描述,然后文本描述被解码成图像。通过这种方式,文本成为了图像和图像之间的桥梁,使得两个任务可以相互促进。如果编码器能够准确地将图像编码成文本,那么解码器就能够根据文本生成高质量的图像。反之,如果解码器能够根据文本生成高质量的图像,那么编码器就能够更好地理解图像。

技术框架:Unified-GRPO的整体框架是一个自编码器结构。它包含一个图像编码器(I2T模块)和一个文本解码器(T2I模块)。图像编码器将输入图像编码成文本描述,文本解码器将文本描述解码成图像。为了优化这两个模块,论文采用了一种基于强化学习的后训练方法。具体来说,模型通过最大化重建图像与原始图像之间的相似度来学习。这个过程可以看作是一个生成对抗网络(GAN)的变体,其中编码器和解码器分别扮演生成器和判别器的角色。

关键创新:该论文的关键创新在于将I2T和T2I任务统一到一个自编码器的框架下,并采用基于强化学习的后训练方法来联合优化这两个模块。这种方法能够有效地利用两个任务之间的互补信息,从而提升模型的性能。此外,使用文本作为中间表示也使得模型能够更好地理解图像和文本之间的关系。

关键设计:Unified-GRPO的关键设计包括:1) 使用预训练的图像编码器和文本解码器作为初始化;2) 采用基于强化学习的训练策略,使用重建损失作为奖励信号;3) 设计了一种新的网络结构,能够更好地处理图像和文本之间的关系。具体的损失函数包括重建损失和对抗损失。网络结构方面,使用了Transformer架构来处理文本信息,并使用了卷积神经网络来处理图像信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Unified-GRPO在I2T和T2I任务上都取得了显著的提升。在I2T任务上,模型能够更准确地识别小物体和进行定位。在T2I任务上,模型能够生成更高保真度和更符合复杂指令的图像。这些结果表明,该方法能够有效地利用两个任务之间的互补信息,从而提升模型的性能。

🎯 应用场景

该研究具有广泛的应用前景,包括图像描述生成、图像编辑、跨模态检索、视觉问答等。通过提升图像和文本之间的理解能力,可以实现更智能的人机交互和更高效的信息处理。例如,可以用于开发更准确的图像搜索引擎,或者用于生成更逼真的虚拟现实场景。

📄 摘要(原文)

Image-to-text (I2T) understanding and text-to-image (T2I) generation are two fundamental, important yet traditionally isolated multimodal tasks. Despite their intrinsic connection, existing approaches typically optimize them independently, missing the opportunity for mutual enhancement. In this paper, we argue that the both tasks can be connected under a shared Auto-Encoder perspective, where text serves as the intermediate latent representation bridging the two directions - encoding images into textual semantics (I2T) and decoding text back into images (T2I). Our key insight is that if the encoder truly "understands" the image, it should capture all essential structure, and if the decoder truly "understands" the text, it should recover that structure faithfully. Building upon this principle, we propose Unified-GRPO, a post-training method based on reinforcement learning that jointly optimizes both modules through reconstructive rewards, maximizing the semantic consistency between the input and the generated images. Under this reconstruction objective, the encoder is encouraged to extract as much accurate and comprehensive semantic information from the input image to maximize reconstruction quality, while the decoder is simultaneously optimized to generate conditioned on the encoder's prior, enabling a self-evolving improvement. Empirically, we find that using text as the intermediate representation and training under a reconstructive RL paradigm effectively benefits both I2T and T2I. The I2T module gains stronger fine-grained visual perception, such as small-object recognition, grounding, etc, while its dense embeddings and language priors, in turn, provide richer semantic signals that improve T2I fidelity and complex instruction following. These results demonstrate that the reconstructive RL establishes a mutually reinforcing cross-modal synergy within the auto-encoding framework.