Thinking with Generated Images
作者: Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-05-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于生成图像的视觉推理方法,提升大模型在复杂视觉任务中的认知能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 生成图像 多模态模型 自我批判 视觉生成 思维链 大型语言模型
📋 核心要点
- 现有大型多模态模型在视觉推理方面受限于固定图像输入或纯文本思维链,缺乏主动视觉探索能力。
- 论文提出“基于生成图像的思考”范式,使模型能够生成中间视觉步骤,进行自我批判和迭代优化。
- 实验表明,该方法在视觉生成任务上显著优于基线,尤其在复杂多对象场景中提升高达50%。
📝 摘要(中文)
本文提出了一种名为“基于生成图像的思考”的新范式,从根本上改变了大型多模态模型(LMMs)进行视觉推理的方式,使其能够通过自发生成中间视觉思考步骤,在文本和视觉模态之间进行原生思考。现有的LMM视觉推理要么局限于处理用户提供的固定图像,要么仅通过基于文本的思维链(CoT)进行推理。“基于生成图像的思考”解锁了一种新的认知能力维度,模型可以主动构建中间视觉思想,批判自己的视觉假设,并在推理过程中完善它们。我们通过两种互补机制证明了该方法的有效性:(1)利用中间视觉子目标进行视觉生成,模型将复杂的视觉任务分解为可管理的组件,并逐步生成和整合;(2)利用自我批判进行视觉生成,模型生成初始视觉假设,通过文本推理分析其缺点,并根据自己的批判生成改进的输出。在视觉生成基准上的实验表明,我们的方法比基线方法有了显著的改进,在处理复杂的多对象场景时,我们的模型实现了高达50%(从38%到57%)的相对改进。从探索新型蛋白质结构的生物化学家、迭代空间设计的建筑师,到重建犯罪现场的法医分析师和设想战略战术的篮球运动员,我们的方法使AI模型能够参与到人类创造性、分析性和战略性思维的视觉想象和迭代改进中。
🔬 方法详解
问题定义:现有的大型多模态模型在进行视觉推理时,主要依赖于用户提供的固定图像或者纯文本的思维链。这种方式的局限性在于,模型无法主动地探索和构建视觉信息,缺乏人类在解决复杂视觉问题时的想象和迭代能力。例如,在设计一个复杂的空间结构时,建筑师通常会在脑海中构建多个不同的视觉方案,并不断地进行评估和改进。现有的模型无法模拟这种主动的视觉探索过程。
核心思路:本文的核心思路是让模型能够像人类一样,通过生成中间的视觉图像来进行思考。具体来说,模型可以根据文本描述或者已有的视觉信息,生成一系列的中间视觉图像,并将这些图像作为推理的中间步骤。通过对这些中间图像进行分析和批判,模型可以不断地改进自己的视觉假设,最终得到一个更合理的解决方案。这种方法的核心在于让模型能够主动地参与到视觉信息的构建和推理过程中,而不是仅仅被动地接受用户提供的输入。
技术框架:整体框架包含两个主要机制:(1)基于中间视觉子目标的视觉生成:将复杂的视觉任务分解为一系列可管理的子任务,并逐步生成相应的视觉图像。例如,在设计一个房间时,可以先生成房间的整体布局,然后再逐步生成家具、装饰等细节。(2)基于自我批判的视觉生成:模型首先生成一个初始的视觉假设,然后通过文本推理来分析这个假设的缺点,并根据分析结果来改进这个假设。例如,模型可以先生成一个房间的设计方案,然后分析这个方案是否合理,例如光线是否充足,空间是否利用充分等,并根据分析结果来调整设计方案。
关键创新:最重要的技术创新点在于将视觉生成和文本推理相结合,使得模型能够主动地构建和批判视觉信息。与现有方法的本质区别在于,现有方法通常是直接基于用户提供的图像进行推理,而本文的方法则是让模型能够主动地生成和探索视觉信息。这种方法可以显著提高模型在复杂视觉任务中的表现,例如在多对象场景中,模型可以更好地理解对象之间的关系,并生成更合理的视觉图像。
关键设计:论文中没有详细描述具体的参数设置、损失函数、网络结构等技术细节。但是,可以推测,模型可能使用了某种形式的生成对抗网络(GAN)或者变分自编码器(VAE)来生成视觉图像。此外,模型可能还使用了某种形式的注意力机制来关注图像中的关键区域,并根据这些区域的信息来进行推理。损失函数可能包括图像重建损失、文本一致性损失等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在视觉生成基准上取得了显著的改进,尤其是在处理复杂的多对象场景时,相对基线方法实现了高达50%的性能提升(从38%到57%)。这表明该方法能够有效地提高模型在复杂视觉任务中的认知能力。
🎯 应用场景
该研究具有广泛的应用前景,包括但不限于:生物化学家探索新型蛋白质结构、建筑师迭代空间设计、法医分析师重建犯罪现场、篮球运动员构思战略战术等。该方法能够赋能AI模型进行视觉想象和迭代改进,从而在创造性、分析性和战略性任务中发挥更大的作用,有望推动相关领域的发展。
📄 摘要(原文)
We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.