Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

📄 arXiv: 2604.25636v1 📥 PDF

作者: Jiayi Guo, Linqing Wang, Jiangshan Wang, Yang Yue, Zeyu Liu, Zhiyuan Zhao, Qinglin Lu, Gao Huang, Chunyu Wang

分类: cs.CV

发布日期: 2026-04-28

备注: GitHub: https://github.com/LeapLabTHU/RvR


💡 一句话要点

提出基于再生成的图像优化方法,增大修改空间,提升统一多模态模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像优化 统一多模态模型 文本到图像生成 条件图像生成 图像再生成

📋 核心要点

  1. 现有基于统一多模态模型的图像优化方法依赖编辑指令,对不齐区域描述粗略,优化不完整。
  2. 提出Refinement via Regeneration (RvR)框架,将图像优化视为条件图像再生成,而非编辑。
  3. 实验表明,RvR能有效提升图像优化效果,在Geneval、DPGBench和UniGenBench++等数据集上均有显著提升。

📝 摘要(中文)

统一多模态模型(UMMs)将视觉理解和生成集成在单一框架中。对于文本到图像(T2I)任务,这种统一能力使得UMMs能够在初始生成后优化输出,从而潜在地扩展性能上限。目前基于UMM的优化方法主要遵循一种“通过编辑优化(RvE)”的范式,即UMMs生成编辑指令来修改未对齐的区域,同时保留对齐的内容。然而,编辑指令通常只能粗略地描述提示-图像未对齐的情况,导致优化不完整。此外,像素级别的保留虽然对于编辑是必要的,但却不必要地限制了优化的有效修改空间。为了解决这些限制,我们提出了一种“通过再生成优化(RvR)”的新框架,该框架将优化重新定义为条件图像再生成,而不是编辑。RvR不依赖于编辑指令和强制的内容保留,而是以目标提示和初始图像的语义token为条件来再生成图像,从而实现与更大修改空间的更完整的语义对齐。大量实验表明了RvR的有效性,将Geneval从0.78提高到0.91,DPGBench从84.02提高到87.21,UniGenBench++从61.53提高到77.41。

🔬 方法详解

问题定义:现有基于统一多模态模型(UMM)的文本到图像(T2I)优化方法,主要采用“通过编辑优化(RvE)”的范式。这种方法依赖于生成编辑指令来修改与文本提示不一致的图像区域,同时保持与提示一致的部分。然而,编辑指令通常只能粗略地描述提示-图像之间的不一致,导致优化不彻底。此外,为了保持图像内容的一致性,RvE方法通常会强制进行像素级别的保留,这不必要地限制了模型进行修改的空间,阻碍了更有效的优化。

核心思路:论文的核心思路是将图像优化问题重新定义为条件图像再生成,而不是图像编辑。这意味着模型不再需要生成编辑指令,而是直接根据目标文本提示和初始图像的语义信息,重新生成一张新的图像。通过这种方式,模型可以摆脱编辑指令的限制,拥有更大的修改空间,从而实现更彻底的语义对齐。

技术框架:RvR框架主要包含两个关键部分:初始图像的语义token提取和条件图像再生成。首先,使用预训练的视觉编码器提取初始图像的语义token。然后,将这些语义token与目标文本提示一起输入到统一多模态模型中,作为条件信息来指导图像的再生成过程。整个框架避免了显式的编辑指令生成,而是通过隐式的语义引导来实现图像的优化。

关键创新:RvR最重要的创新点在于它将图像优化问题从编辑范式转变为了再生成范式。这种转变使得模型能够摆脱编辑指令的束缚,拥有更大的修改空间,从而实现更彻底的语义对齐。与传统的RvE方法相比,RvR不再需要强制进行像素级别的保留,而是允许模型根据目标文本提示自由地修改图像的任何部分。

关键设计:在具体实现上,论文使用了预训练的视觉Transformer来提取初始图像的语义token。在条件图像再生成阶段,论文将语义token和文本提示拼接在一起,作为统一多模态模型的输入。损失函数主要包括图像重建损失和文本-图像对齐损失,以确保生成的图像既能够保留初始图像的语义信息,又能够与目标文本提示保持一致。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RvR方法在多个文本到图像生成数据集上取得了显著的性能提升。具体来说,在Geneval数据集上,RvR将性能从0.78提高到0.91;在DPGBench数据集上,从84.02提高到87.21;在UniGenBench++数据集上,从61.53提高到77.41。这些结果表明,RvR方法能够有效地提升图像优化效果,并且具有良好的泛化能力。

🎯 应用场景

该研究成果可广泛应用于图像编辑、图像修复、个性化图像生成等领域。例如,用户可以通过文本描述对生成的图像进行精细调整,或者修复图像中与文本描述不符的区域。该方法在电商、游戏、广告等行业具有潜在的应用价值,能够提升图像生成质量和用户体验。

📄 摘要(原文)

Unified multimodal models (UMMs) integrate visual understanding and generation within a single framework. For text-to-image (T2I) tasks, this unified capability allows UMMs to refine outputs after their initial generation, potentially extending the performance upper bound. Current UMM-based refinement methods primarily follow a refinement-via-editing (RvE) paradigm, where UMMs produce editing instructions to modify misaligned regions while preserving aligned content. However, editing instructions often describe prompt-image misalignment only coarsely, leading to incomplete refinement. Moreover, pixel-level preservation, though necessary for editing, unnecessarily restricts the effective modification space for refinement. To address these limitations, we propose Refinement via Regeneration (RvR), a novel framework that reformulates refinement as conditional image regeneration rather than editing. Instead of relying on editing instructions and enforcing strict content preservation, RvR regenerates images conditioned on the target prompt and the semantic tokens of the initial image, enabling more complete semantic alignment with a larger modification space. Extensive experiments demonstrate the effectiveness of RvR, improving Geneval from 0.78 to 0.91, DPGBench from 84.02 to 87.21, and UniGenBench++ from 61.53 to 77.41.