MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning

📄 arXiv: 2509.22761v2 📥 PDF

作者: Yapeng Mi, Hengli Li, Yanpeng Zhao, Chenxi Li, Huimin Wu, Xiaojian Ma, Song-Chun Zhu, Ying Nian Wu, Qing Li

分类: cs.CV, cs.AI

发布日期: 2025-09-26 (更新: 2025-12-04)

备注: 21 pages,13 figures,9 tables


💡 一句话要点

提出MILR,一种测试时潜在推理方法,提升多模态图像生成质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态图像生成 跨模态推理 测试时推理 策略梯度 潜在空间 文本到图像 图像质量评价

📋 核心要点

  1. 现有图像生成推理方法局限于单模态或依赖高质量推理数据进行微调,存在局限性。
  2. MILR的核心思想是在测试时,于统一潜在空间中联合推理图像和文本,提升生成质量。
  3. 实验表明,MILR在多个基准测试中达到SOTA,并在知识密集型任务上显著优于基线。

📝 摘要(中文)

本文提出了一种名为MILR的测试时方法,用于改进多模态图像生成。MILR在统一的潜在向量空间中联合推理图像和文本信息。推理过程通过搜索离散图像和文本token的向量表示来实现,具体通过策略梯度方法,并由图像质量评价器指导。MILR在统一的多模态理解和生成(MUG)框架内实现,该框架原生支持图像合成前的语言推理,从而促进跨模态推理。待优化的中间模型输出作为统一的潜在空间,使MILR完全在测试时运行。在GenEval、T2I-CompBench和WISE上的评估表明,MILR在所有基准测试中都达到了最先进的结果。尤其是在知识密集型的WISE上,MILR的总分达到0.63,比基线提高了80%。进一步的分析表明,在统一潜在空间中的联合推理是其强大性能的关键。此外,定性研究揭示了MILR在时间和文化推理方面的能力,突出了该推理方法的有效性。

🔬 方法详解

问题定义:现有的基于推理的图像生成方法通常只关注单一模态(图像或文本)的推理,或者需要高质量的推理数据进行微调。这限制了它们在复杂场景下的应用,并且增加了数据准备的成本。因此,需要一种能够在测试时进行跨模态推理,且不需要额外训练数据的方法。

核心思路:MILR的核心思路是在统一的潜在向量空间中,对图像和文本进行联合推理。通过在离散的图像和文本token的向量表示中进行搜索,找到最优的组合,从而生成更高质量的图像。这种方法利用了预训练模型中已经存在的知识,避免了从头开始训练推理模块的需要。

技术框架:MILR构建于统一的多模态理解和生成(MUG)框架之上。MUG框架首先进行语言推理,然后进行图像合成,为跨模态推理提供了天然的优势。MILR的关键步骤包括:1) 将图像和文本编码到统一的潜在空间中;2) 使用策略梯度方法,在潜在空间中搜索最优的token组合;3) 使用图像质量评价器作为奖励信号,指导搜索过程。整个过程在测试时进行,不需要额外的训练数据。

关键创新:MILR的关键创新在于其测试时联合推理的能力。它不需要额外的推理数据进行微调,而是直接利用预训练模型中的知识,在统一的潜在空间中进行跨模态推理。这种方法不仅提高了生成图像的质量,还降低了数据准备的成本。

关键设计:MILR使用策略梯度方法进行搜索,图像质量评价器作为奖励信号。具体来说,使用CLIP模型来评估生成图像的质量,并将其作为奖励信号反馈给策略网络。策略网络的目标是找到能够最大化奖励的token组合。此外,MILR还使用了一种探索策略,以避免陷入局部最优解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MILR在GenEval、T2I-CompBench和WISE等多个基准测试中取得了最先进的结果。在知识密集型的WISE基准测试中,MILR的总分达到了0.63,相比基线提高了80%。这些结果表明,MILR在多模态图像生成方面具有显著的优势,尤其是在需要复杂推理和知识的任务中。

🎯 应用场景

MILR可应用于各种多模态图像生成任务,例如文本到图像生成、图像编辑和视觉故事生成。该方法能够提升生成图像的质量和一致性,尤其是在需要复杂推理和知识的任务中。未来,MILR可以扩展到其他模态,例如视频和音频,从而实现更强大的多模态生成系统。

📄 摘要(原文)

Reasoning-augmented machine learning systems have shown improved performance in various domains, including image generation. However, existing reasoning-based methods for image generation either restrict reasoning to a single modality (image or text) or rely on high-quality reasoning data for fine-tuning. To tackle these limitations, we propose MILR, a test-time method that jointly reasons over image and text in a unified latent vector space. Reasoning in MILR is performed by searching through vector representations of discrete image and text tokens. Practically, this is implemented via the policy gradient method, guided by an image quality critic. We instantiate MILR within the unified multimodal understanding and generation (MUG) framework that natively supports language reasoning before image synthesis and thus facilitates cross-modal reasoning. The intermediate model outputs, which are to be optimized, serve as the unified latent space, enabling MILR to operate entirely at test time. We evaluate MILR on GenEval, T2I-CompBench, and WISE, achieving state-of-the-art results on all benchmarks. Notably, on knowledge-intensive WISE, MILR attains an overall score of 0.63, improving over the baseline by 80%. Our further analysis indicates that joint reasoning in the unified latent space is the key to its strong performance. Moreover, our qualitative studies reveal MILR's non-trivial ability in temporal and cultural reasoning, highlighting the efficacy of our reasoning method.