Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

📄 arXiv: 2601.05124v1 📥 PDF

作者: Runze He, Yiji Cheng, Tiankai Hang, Zhimin Li, Yu Xu, Zijin Yin, Shiyi Zhang, Wenxun Dai, Penghui Du, Ao Ma, Chunyu Wang, Qinglin Lu, Jizhong Han, Jiao Dai

分类: cs.CV

发布日期: 2026-01-08

备注: 13 pages, 9 figures, project page: https://github.com/hrz2000/realign


💡 一句话要点

Re-Align:结构化推理引导的上下文图像生成与编辑框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 图像生成 图像编辑 结构化推理 强化学习

📋 核心要点

  1. 现有统一多模态模型在理解能力上表现出色,但这些优势难以有效迁移到图像生成任务中,导致ICGE任务中用户意图理解不精确。
  2. Re-Align通过结构化推理引导对齐,解耦语义指导和参考关联,利用上下文思维链(IC-CoT)提供清晰的文本目标,缓解参考图像间的混淆。
  3. Re-Align引入强化学习训练方案,通过代理奖励衡量结构化推理文本和生成图像的对齐程度,实验表明Re-Align在ICGE任务上优于其他方法。

📝 摘要(中文)

本文提出Re-Align,一个统一的框架,通过结构化推理引导对齐来弥合理解和生成之间的差距,从而提升上下文图像生成与编辑(ICGE)任务的性能。该框架的核心是上下文思维链(IC-CoT),一种结构化推理范式,它解耦了语义指导和参考关联,提供了清晰的文本目标,并减轻了参考图像之间的混淆。此外,Re-Align引入了一种有效的强化学习训练方案,利用代理奖励来衡量结构化推理文本和生成图像之间的对齐程度,从而提高模型在ICGE任务上的整体性能。大量实验验证了Re-Align在上下文图像生成和编辑任务上优于同等模型规模和资源的竞争方法。

🔬 方法详解

问题定义:上下文图像生成与编辑(ICGE)任务旨在根据给定的图像-文本提示生成或编辑图像。现有方法,尤其是统一多模态模型,虽然在理解能力上有所提升,但在将理解能力转化为高质量图像生成方面仍然存在困难。主要痛点在于模型难以精确理解用户意图,并忠实地执行图像编辑或生成,尤其是在存在多个参考图像时,容易产生混淆。

核心思路:Re-Align的核心思路是通过结构化推理来引导图像生成过程,从而提高生成图像与用户意图的对齐程度。具体而言,它将复杂的图像生成任务分解为两个步骤:首先,利用上下文思维链(IC-CoT)进行结构化推理,生成清晰的文本目标;然后,根据该文本目标生成图像。这种解耦的方式有助于模型更好地理解用户意图,并避免参考图像之间的混淆。

技术框架:Re-Align框架主要包含两个阶段:结构化推理阶段和图像生成阶段。在结构化推理阶段,模型接收包含图像和文本的上下文提示,并利用IC-CoT生成结构化的推理文本。该推理文本明确描述了需要生成的图像的内容和风格。在图像生成阶段,模型根据推理文本生成图像。为了提高生成图像与推理文本的对齐程度,Re-Align还引入了一种强化学习训练方案。

关键创新:Re-Align的关键创新在于引入了结构化推理来引导图像生成过程。传统的图像生成方法通常直接根据图像-文本提示生成图像,而Re-Align则通过IC-CoT将复杂的生成任务分解为更易于理解和执行的子任务。此外,Re-Align还引入了一种强化学习训练方案,利用代理奖励来衡量生成图像与推理文本的对齐程度,从而进一步提高了生成质量。

关键设计:IC-CoT的具体实现方式未知,但其核心思想是将复杂的图像生成任务分解为语义指导和参考关联两个部分。强化学习训练方案中,代理奖励的设计至关重要,需要能够准确衡量生成图像与推理文本的对齐程度。具体的网络结构和损失函数细节未知,但可以推测使用了常见的图像生成模型(如扩散模型或GAN)作为生成器,并设计了相应的损失函数来优化生成器的参数。

📊 实验亮点

Re-Align在上下文图像生成和编辑任务上取得了显著的性能提升。具体数据未知,但摘要中明确指出Re-Align优于同等模型规模和资源的竞争方法。这表明Re-Align的结构化推理引导对齐策略是有效的,能够提高生成图像与用户意图的对齐程度。

🎯 应用场景

Re-Align技术可应用于多种场景,例如:个性化图像生成、图像风格迁移、图像修复、以及创意设计等。该技术能够帮助用户更精确地控制图像生成过程,实现更符合用户意图的图像创作。未来,该技术有望在电商、广告、游戏等领域得到广泛应用,提升用户体验和创作效率。

📄 摘要(原文)

In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.