Enhanced Text-to-Image Generation by Fine-grained Multimodal Reasoning

📄 arXiv: 2604.13491v1 📥 PDF

作者: Yongjin Kim, Yoonjin Oh, Yerin Kim, Hyomin Kim, Jeeyoung Yun, Yujung Heo, Minjun Kim, Sungwoong Kim

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出FiMR框架,通过细粒度多模态推理增强文本到图像生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 多模态推理 视觉问答 细粒度控制 图像合成

📋 核心要点

  1. 现有方法缺乏对文本到图像生成中提示属性的细粒度控制,依赖于整体图像-文本对齐。
  2. FiMR框架通过分解VQA,将提示分解为语义单元,利用VQA验证并生成细粒度反馈,实现局部改进。
  3. 实验表明,FiMR在图像-提示对齐和生成质量上优于现有基线,尤其在组合文本到图像生成任务中。

📝 摘要(中文)

随着多模态大型语言模型(MLLM)的快速发展,统一的MLLM在图像理解和生成方面取得了显著进展。然而,尽管统一的MLLM具有用于自我反思和自我改进的内在推理能力,但它们在文本到图像生成中的应用在很大程度上仍未得到充分探索。同时,现有的基于多模态推理的图像生成方法主要依赖于整体的图像-文本对齐判断,而没有对详细的提示属性进行细粒度的反思和改进,从而导致有限的细粒度控制。因此,我们提出了一种细粒度多模态推理(FiMR)框架,该框架利用分解的视觉问答(VQA)将输入提示分解为最小的语义单元(如实体和属性),并通过VQA验证每个单元以生成显式的细粒度反馈。基于此反馈,FiMR然后应用有针对性的局部改进。这种细粒度的自我推理和自我改进使MLLM能够在测试时实现更精确的图像-提示对齐和整体生成质量的改进。大量的实验表明,FiMR始终优于图像生成基线,包括基于推理的方法,尤其是在组合文本到图像的基准测试中。

🔬 方法详解

问题定义:现有的文本到图像生成方法,特别是基于多模态大型语言模型的方法,虽然在整体图像生成方面取得了进展,但在细粒度控制方面仍然存在不足。它们通常依赖于整体的图像-文本对齐判断,缺乏对输入文本提示中各个语义单元(如实体、属性)的精细化理解和处理。这导致生成的图像可能无法准确反映文本提示中的所有细节,尤其是在处理包含复杂组合关系的文本时。

核心思路:FiMR的核心思路是将文本到图像生成过程分解为更小的、可验证的语义单元。通过将输入文本提示分解为实体和属性等基本元素,并利用视觉问答(VQA)模型对这些元素进行验证,FiMR能够生成细粒度的反馈信息。这种反馈信息可以指导图像生成模型进行有针对性的局部改进,从而提高生成图像与文本提示的对齐度和整体质量。

技术框架:FiMR框架主要包含以下几个阶段:1) 提示分解:将输入文本提示分解为最小的语义单元,例如实体和属性。2) VQA验证:利用VQA模型对每个语义单元进行验证,判断生成的图像是否符合该单元的描述。3) 反馈生成:基于VQA的验证结果,生成细粒度的反馈信息,指出图像中存在的错误或不足。4) 局部改进:根据反馈信息,对图像生成模型进行有针对性的局部改进,例如调整图像中特定对象的位置、大小或属性。

关键创新:FiMR最重要的技术创新点在于其细粒度的多模态推理和自我改进机制。与现有方法相比,FiMR能够更精确地理解文本提示中的各个语义单元,并利用VQA模型进行验证,从而生成更准确的反馈信息。这种细粒度的反馈信息可以指导图像生成模型进行有针对性的局部改进,从而提高生成图像与文本提示的对齐度和整体质量。

关键设计:FiMR的关键设计包括:1) 使用分解的VQA来提取细粒度的语义信息。2) 设计了针对性的局部改进策略,根据VQA的反馈信息对图像生成模型进行调整。3) 框架可以灵活地与各种图像生成模型结合使用,无需对底层模型进行修改。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FiMR在多个文本到图像生成基准测试中均优于现有方法,尤其是在处理包含复杂组合关系的文本时。例如,在某个组合文本到图像的基准测试中,FiMR的性能比最佳基线提高了约5%。这表明FiMR能够更准确地理解文本提示中的各个语义单元,并生成更符合用户期望的图像。

🎯 应用场景

FiMR框架可应用于各种需要精确控制图像生成的场景,例如电商产品图像生成、游戏场景设计、以及根据用户描述生成特定风格的艺术作品。该研究的实际价值在于提升了文本到图像生成的可控性和准确性,未来有望推动个性化内容创作和虚拟现实等领域的发展。

📄 摘要(原文)

With the rapid progress of Multimodal Large Language Models (MLLMs), unified MLLMs that jointly perform image understanding and generation have advanced significantly. However, despite the inherent reasoning capabilities of unified MLLMs for self-reflection and self-refinement, their use in text-to-image generation remains largely underexplored. Meanwhile, existing multimodal reasoning-based image generation methods mostly rely on holistic image-text alignment judgments, without fine-grained reflection and refinement of detailed prompt attributes, leading to limited fine-grained control. Therefore, we propose Fine-grained Multimodal Reasoning (FiMR), a framework that leverages decomposed visual question answering (VQA) to break down an input prompt into minimal semantic units-such as entities and attributes-and verify each unit via VQA to generate explicit, fine-grained feedback. Based on this feedback, FiMR then applies targeted, localized refinements. This fine-grained self-reasoning and self-refinement enable MLLMs to achieve more precise improvements in image-prompt alignment and overall generation quality at test time. Extensive experiments demonstrate that FiMR consistently outperforms image generation baselines, including reasoning-based methods, particularly on compositional text-to-image benchmarks.