Reversing the Flow: Generation-to-Understanding Synergy in Large Multimodal Models

📄 arXiv: 2605.15792v1 📥 PDF

作者: Yujun Tong, Dongliang Chang, Zijin Yin, Xintong Liu, Yuanchen Fang, Zhanyu Ma

分类: cs.CV

发布日期: 2026-05-15

备注: Accepted by CVPR 2026 Findings


💡 一句话要点

提出G2U框架,利用生成式视觉思考反哺多模态理解,提升模型认知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉生成 视觉理解 生成式模型 反向信息流

📋 核心要点

  1. 现有大型多模态模型主要关注理解指导生成,忽略了生成对理解的反哺作用,限制了模型认知能力的提升。
  2. 提出Generation-to-Understanding (G2U)框架,利用生成式视觉思考作为中间推理步骤,反向提升多模态理解能力。
  3. 实验表明,G2U框架在多个基准测试中持续改进了多模态理解,并分析了生成保真度与感知增益的关系。

📝 摘要(中文)

多模态人工智能的长期目标是构建统一的模型,使视觉理解和视觉生成能够相互促进。尽管最近的研究,如BAGEL和BLIP3o,取得了显著进展,但这种统一在实践中仍然是单向的:理解通常指导生成,而生成如何以及为何能够支持理解却很少被研究。本文重新审视了这种不对称性,并提出了生成到理解(G2U)的协同作用,其中视觉生成成为一个显式的中间推理步骤。我们的框架使模型能够执行受控的生成行为,例如细节增强、上下文扩展或结构可视化,以产生自我生成的视觉思考,然后将其反馈到模型中以改进感知,而无需重新训练或外部工具。通过对十二个基准的全面评估,这种反向信息流持续改进了多模态理解。我们表明,生成保真度限制了感知增益,并且不同类型的编辑提示控制着传输效率。我们进一步分析了模型是否可以决定想象什么。虽然它们可以产生合理的编辑,但这些自我生成的视觉思考缺乏稳定的任务对齐,这表明当前的大型多模态模型缺乏真正的自我反思。这项工作揭示了统一认知中缺失的机制,并表明想象力不是理解的终点,而是它的起点。

🔬 方法详解

问题定义:现有的大型多模态模型在视觉理解和生成任务中,通常采用单向的信息流,即理解指导生成。然而,生成能力本身蕴含着对场景和结构的理解,如何利用生成过程中的信息来反哺理解,提升模型的认知能力,是一个尚未充分探索的问题。现有方法未能有效利用生成能力来增强理解能力,存在信息利用效率低下的问题。

核心思路:本文的核心思路是建立一个“生成到理解”(Generation-to-Understanding, G2U)的反馈回路。通过让模型主动生成视觉“思考”,例如细节增强、上下文扩展等,并将这些生成的图像反馈回模型,以改进其对原始图像的理解。这种方法模拟了人类的认知过程,即通过想象和思考来加深对事物的理解。

技术框架:G2U框架主要包含以下几个阶段:1) 输入图像:模型接收原始图像作为输入。2) 生成式视觉思考:模型根据预定义的提示(prompts)生成图像的变体,例如增强细节、扩展上下文等。这些生成的图像代表了模型的“视觉思考”。3) 理解增强:将生成的图像与原始图像一起输入到理解模块,利用生成的信息来改进对原始图像的理解。4) 任务执行:模型基于增强的理解执行下游任务,例如图像分类、视觉问答等。整个过程无需重新训练或使用外部工具。

关键创新:该论文最重要的创新点在于提出了G2U的协同机制,将视觉生成作为理解过程中的一个显式中间步骤。与以往单向的信息流不同,G2U实现了生成与理解之间的双向互动,充分利用了生成能力来提升理解能力。这种反向的信息流是现有方法所缺乏的。

关键设计:G2U框架的关键设计包括:1) 编辑提示(Edit Prompts):用于控制生成图像的类型,例如“增强细节”、“扩展上下文”等。不同的提示会引导模型产生不同的视觉思考。2) 生成模型:用于生成图像变体,可以选择不同的生成模型,如扩散模型或GAN。3) 理解模块:用于融合原始图像和生成的图像,以改进对原始图像的理解。损失函数的设计取决于具体的下游任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,G2U框架在十二个基准测试中持续改进了多模态理解。研究发现,生成图像的保真度与感知增益之间存在正相关关系,即生成图像越逼真,对理解的提升效果越明显。此外,不同类型的编辑提示对传输效率有显著影响,表明选择合适的提示对于G2U框架的性能至关重要。

🎯 应用场景

G2U框架具有广泛的应用前景,可以应用于图像编辑、图像修复、视觉问答、机器人导航等领域。通过利用生成能力来增强理解能力,可以提升模型在复杂场景下的认知和决策能力。该研究对于开发更智能、更可靠的多模态人工智能系统具有重要意义,并可能推动通用人工智能的发展。

📄 摘要(原文)

The long-standing goal of multimodal AI is to build unified models in which visual understanding and visual generation mutually enhance one another. Despite recent works such as BAGEL, BLIP3o achieves remarkable progress; In practice, however, this unification remains one-directional: understanding routinely guides generation, yet how and why generation can support understanding is rarely investigated. We revisit this asymmetry and propose Generation-to-Understanding (G2U) synergy, where visual generation becomes an explicit intermediate reasoning step. Our framework enables a model to perform controlled generative acts, such as detail enhancement, context expansion or structural visualisation, to produce self-generated visual thoughts, which are then fed back into the model to refine perception without retraining or external tools. Through a comprehensive evaluation on twelve benchmarks, this reversed information flow consistently improves multimodal understanding. We show that generative fidelity bounds perceptual gain and that distinct families of edit prompts govern transfer efficiency. We further analyse whether models can decide what to imagine. While they can produce plausible edits, these self-generated visual thoughts lack stable task alignment, revealing that current large multimodal models fall short of true self-reflection. This work exposes a missing mechanism in unified cognition and suggests that imagination is not the end of understanding but its beginning.