UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation

📄 arXiv: 2505.14682v1 📥 PDF

作者: Rui Tian, Mingfei Gao, Mingze Xu, Jiaming Hu, Jiasen Lu, Zuxuan Wu, Yinfei Yang, Afshin Dehghan

分类: cs.CV

发布日期: 2025-05-20

备注: Technical report


💡 一句话要点

UniGen:通过增强训练和测试策略实现统一多模态理解与生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图像生成 图像理解 思维链 自验证 大型语言模型 文本图像对齐 直接偏好优化

📋 核心要点

  1. 现有统一多模态模型在图像生成质量和文本图像语义对齐方面仍面临挑战,尤其是在测试时如何有效提升性能。
  2. UniGen提出了一种新颖的思维链验证(CoT-V)策略,在测试时利用模型自身进行图像生成和验证,以提升生成质量。
  3. UniGen在多个图像理解和生成基准测试中取得了领先性能,证明了所提出的训练和测试策略的有效性。

📝 摘要(中文)

本文介绍了UniGen,一个能够进行图像理解和生成的统一多模态大型语言模型(MLLM)。我们从数据中心视角研究了UniGen的完整训练流程,包括多阶段预训练、监督微调和直接偏好优化。更重要的是,我们提出了一种新的思维链验证(CoT-V)策略用于测试时扩展,通过简单的Best-of-N测试时策略显著提升了UniGen的图像生成质量。具体来说,CoT-V使UniGen在测试时既能作为图像生成器,又能作为验证器,以逐步CoT的方式评估文本提示与其生成的图像之间的语义对齐。UniGen完全在开源数据集上进行训练,在图像理解和生成基准测试中取得了最先进的性能,在GenEval上获得了0.78的最终得分,在DPG-Bench上获得了85.19的得分。通过广泛的消融研究,我们的工作提供了可操作的见解,并解决了构建统一MLLM完整生命周期的关键挑战,为未来的研究贡献了有意义的方向。

🔬 方法详解

问题定义:论文旨在解决统一多模态大型语言模型(MLLM)在图像理解和生成任务中,尤其是在测试阶段,如何提升生成图像质量和保证文本图像语义对齐的问题。现有方法通常依赖复杂的模型结构或额外的训练数据,而忽略了利用模型自身能力进行验证和优化的潜力。

核心思路:论文的核心思路是利用大型语言模型自身的推理能力,使其在测试时不仅作为图像生成器,还作为验证器,通过思维链(Chain-of-Thought, CoT)的方式逐步评估生成图像与文本提示之间的语义一致性。这种自验证的方式能够有效筛选出更符合文本描述的图像,从而提升整体生成质量。

技术框架:UniGen的整体框架包括三个主要阶段:多阶段预训练、监督微调和直接偏好优化。在测试阶段,采用Best-of-N策略,生成N个图像,然后利用CoT-V模块对每个图像进行验证,选择得分最高的图像作为最终输出。CoT-V模块通过逐步推理,判断图像中的关键元素和关系是否与文本提示一致。

关键创新:论文的关键创新在于提出了CoT-V策略,这是一种在测试时利用模型自身进行验证的机制。与传统的生成模型不同,UniGen能够利用其强大的语言理解能力,对生成的图像进行细粒度的语义分析,从而提升生成质量。这种自验证的方式避免了对额外验证模型的依赖,降低了计算成本。

关键设计:CoT-V模块的关键设计在于如何构建有效的思维链。论文设计了一系列问题,引导模型逐步分析图像中的关键元素和关系,例如“图像中是否包含X?”、“X和Y之间的关系是否符合文本描述?”。模型根据这些问题的答案,计算出一个置信度分数,用于评估图像与文本提示之间的语义一致性。此外,论文还采用了直接偏好优化(Direct Preference Optimization, DPO)方法,进一步提升模型的生成质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniGen在GenEval上取得了0.78的最终得分,在DPG-Bench上获得了85.19的得分,超越了现有的开源模型,达到了最先进的性能。通过消融实验,验证了CoT-V策略的有效性,证明了其能够显著提升图像生成质量和文本图像语义对齐。

🎯 应用场景

UniGen具有广泛的应用前景,包括图像编辑、内容创作、虚拟现实、教育娱乐等领域。例如,用户可以通过文本描述生成特定场景的图像,或者对现有图像进行编辑和修改。该研究的成果有助于推动多模态人工智能技术的发展,并为未来的智能应用提供更强大的支持。

📄 摘要(原文)

We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding and generation. We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, and direct preference optimization. More importantly, we propose a new Chain-of-Thought Verification (CoT-V) strategy for test-time scaling, which significantly boosts UniGen's image generation quality using a simple Best-of-N test-time strategy. Specifically, CoT-V enables UniGen to act as both image generator and verifier at test time, assessing the semantic alignment between a text prompt and its generated image in a step-by-step CoT manner. Trained entirely on open-source datasets across all stages, UniGen achieves state-of-the-art performance on a range of image understanding and generation benchmarks, with a final score of 0.78 on GenEval and 85.19 on DPG-Bench. Through extensive ablation studies, our work provides actionable insights and addresses key challenges in the full life cycle of building unified MLLMs, contributing meaningful directions to the future research.