Self-Corrected Image Generation with Explainable Latent Rewards

📄 arXiv: 2603.24965v1 📥 PDF

作者: Yinyi Luo, Hrishikesh Gokhale, Marios Savvides, Jindong Wang, Shengfeng He

分类: cs.CV, cs.AI

发布日期: 2026-03-26

备注: CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出xLARD框架,利用可解释的隐空间奖励实现自校正图像生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 自校正 隐空间表示 可解释性 多模态学习

📋 核心要点

  1. 现有文本到图像生成模型难以处理复杂提示,尤其在细粒度语义和空间关系对齐方面表现不足。
  2. xLARD框架利用多模态大语言模型,通过可解释的隐空间奖励来指导图像生成过程中的自校正。
  3. 实验结果表明,xLARD在提高语义对齐和视觉保真度的同时,能够保持良好的生成先验。

📝 摘要(中文)

尽管文本到图像生成取得了显著进展,但使生成结果与复杂提示对齐仍然具有挑战性,尤其是在细粒度语义和空间关系方面。这种困难源于生成过程的前馈性质,需要在不完全理解输出的情况下预测对齐。相比之下,评估生成的图像更容易。受这种不对称性的启发,我们提出了xLARD,一个自校正框架,它使用多模态大型语言模型通过可解释的隐空间奖励来指导生成。xLARD引入了一个轻量级校正器,该校正器基于模型生成的参考的结构化反馈来细化潜在表示。一个关键组件是从潜在编辑到可解释奖励信号的可微映射,从而实现来自不可微图像级评估的连续潜在级别指导。这种机制允许模型在生成过程中理解、评估和纠正自身。在各种生成和编辑任务中的实验表明,xLARD提高了语义对齐和视觉保真度,同时保持了生成先验。代码可在https://yinyiluo.github.io/xLARD/获得。

🔬 方法详解

问题定义:现有的文本到图像生成模型,尤其是基于扩散模型的架构,在处理复杂和细粒度的文本提示时,难以保证生成图像与提示在语义和空间关系上完全对齐。这是因为生成过程是前馈的,模型需要在生成图像之前就预测所有细节,而无法在生成过程中进行反馈和修正。现有方法缺乏有效的机制来理解、评估和纠正生成过程中的错误。

核心思路:xLARD的核心思路是引入一个自校正机制,允许模型在生成过程中根据反馈不断调整和优化生成结果。该方法利用多模态大型语言模型(MLLM)来评估生成的图像,并生成可解释的奖励信号,这些奖励信号指导对潜在表示的编辑。通过这种方式,模型可以理解自身的错误,并利用这些信息来改进后续的生成过程。

技术框架:xLARD框架包含以下主要模块:1) 文本到图像生成器:使用预训练的扩散模型生成初始图像。2) 多模态大型语言模型(MLLM):用于评估生成的图像,并生成可解释的奖励信号。3) 轻量级校正器:基于MLLM的反馈,对潜在表示进行编辑,从而改进生成结果。4) 可微映射:将潜在编辑映射到可解释的奖励信号,使得可以利用梯度下降来优化潜在表示。

关键创新:xLARD的关键创新在于引入了可解释的隐空间奖励,并利用这些奖励来指导生成过程中的自校正。与传统的基于对抗学习的方法不同,xLARD使用MLLM生成可解释的反馈,使得模型可以理解自身的错误,并利用这些信息来改进生成过程。此外,xLARD还引入了一个可微映射,使得可以利用梯度下降来优化潜在表示,从而实现更有效的自校正。

关键设计:xLARD的关键设计包括:1) 使用预训练的扩散模型作为生成器,以保证生成图像的质量。2) 使用多模态大型语言模型(如GPT-4)来评估生成的图像,并生成可解释的奖励信号。3) 设计一个轻量级的校正器,用于对潜在表示进行编辑。4) 引入一个可微映射,将潜在编辑映射到可解释的奖励信号。损失函数的设计需要平衡语义对齐、视觉保真度和生成先验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,xLARD在多个图像生成和编辑任务中都取得了显著的性能提升。例如,在复杂场景生成任务中,xLARD能够生成更符合文本描述的图像,并且在语义对齐和视觉保真度方面优于现有的基线方法。定量评估指标显示,xLARD在FID和CLIP score等指标上均有明显改善,证明了其有效性。

🎯 应用场景

xLARD框架具有广泛的应用前景,包括图像编辑、内容创作、虚拟现实和游戏开发等领域。它可以用于生成更符合用户需求的图像,提高图像生成的质量和效率。此外,xLARD的可解释性使得用户可以更好地理解生成过程,并进行更精细的控制。该研究的未来影响在于推动可控图像生成技术的发展,并为人工智能在创意领域的应用提供新的思路。

📄 摘要(原文)

Despite significant progress in text-to-image generation, aligning outputs with complex prompts remains challenging, particularly for fine-grained semantics and spatial relations. This difficulty stems from the feed-forward nature of generation, which requires anticipating alignment without fully understanding the output. In contrast, evaluating generated images is more tractable. Motivated by this asymmetry, we propose xLARD, a self-correcting framework that uses multimodal large language models to guide generation through Explainable LAtent RewarDs. xLARD introduces a lightweight corrector that refines latent representations based on structured feedback from model-generated references. A key component is a differentiable mapping from latent edits to interpretable reward signals, enabling continuous latent-level guidance from non-differentiable image-level evaluations. This mechanism allows the model to understand, assess, and correct itself during generation. Experiments across diverse generation and editing tasks show that xLARD improves semantic alignment and visual fidelity while maintaining generative priors. Code is available at https://yinyiluo.github.io/xLARD/.