CyCLeGen: Cycle-Consistent Layout Prediction and Image Generation in Vision Foundation Models
作者: Xiaojun Shan, Haoyu Shen, Yucheng Mao, Xiang Zhang, Abhay Anand, Bingnan Li, Haiyang Xu, Zhuowen Tu
分类: cs.CV
发布日期: 2026-03-16
💡 一句话要点
CyCLeGen:视觉基础模型中循环一致的布局预测与图像生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 图像生成 布局预测 循环一致性学习 自回归模型
📋 核心要点
- 现有视觉模型通常依赖分离的模块进行图像感知和图像生成,缺乏内在联系。
- CyCLeGen通过循环一致性学习,将图像理解和生成统一在单一自回归框架中,实现模型内省。
- 实验结果表明,CyCLeGen在图像理解和生成任务上均取得了显著提升,验证了其有效性。
📝 摘要(中文)
本文提出CyCLeGen,一个统一的视觉-语言基础模型,能够在单一自回归框架内实现图像理解和图像生成。与依赖于独立模块进行感知和合成的现有视觉模型不同,CyCLeGen采用完全集成的架构,通过图像->布局->图像和布局->图像->布局的生成循环来强制执行循环一致性学习。这种统一的公式引入了两个关键优势:内省,使模型能够推理其自身的生成结果;以及数据效率,允许在循环一致性指导下的强化学习目标下,通过合成监督进行自我改进。大量实验表明,CyCLeGen在各种图像理解和生成基准测试中取得了显著的提升,突出了统一视觉-语言基础模型的潜力。
🔬 方法详解
问题定义:现有视觉模型通常采用分离的模块处理图像理解和图像生成任务,缺乏内在联系,难以进行自我评估和改进。模型无法有效地利用生成结果反过来提升理解能力,同时也限制了数据效率,难以通过合成数据进行有效训练。
核心思路:CyCLeGen的核心思路是利用循环一致性学习,将图像理解(布局预测)和图像生成统一到一个自回归框架中。通过图像->布局->图像和布局->图像->布局的循环,模型能够学习到图像和布局之间的双向映射关系,从而实现内省和自我改进。
技术框架:CyCLeGen采用统一的自回归架构,包含图像编码器、布局编码器和解码器。图像编码器将图像转换为特征表示,布局编码器将布局转换为特征表示,解码器则根据输入的特征表示生成图像或布局。整个框架通过循环一致性损失进行训练,鼓励模型生成与输入一致的结果。
关键创新:CyCLeGen的关键创新在于其循环一致性学习框架,它允许模型在图像和布局之间进行双向转换,从而实现内省和自我改进。这种统一的框架避免了使用分离的模块,简化了模型结构,并提高了数据效率。
关键设计:CyCLeGen使用Transformer作为其核心架构,并采用交叉注意力机制来实现图像和布局之间的交互。循环一致性损失包括图像重建损失和布局重建损失,用于衡量生成结果与输入之间的差异。此外,论文还使用了强化学习来进一步优化模型的生成能力,奖励循环一致的结果。
🖼️ 关键图片
📊 实验亮点
CyCLeGen在多个图像理解和生成基准测试中取得了显著的提升。例如,在图像生成任务中,CyCLeGen的FID得分优于现有方法。在布局预测任务中,CyCLeGen的准确率也得到了显著提高。这些结果表明,CyCLeGen能够有效地学习图像和布局之间的关系,并生成高质量的图像和布局。
🎯 应用场景
CyCLeGen具有广泛的应用前景,包括图像编辑、场景生成、数据增强等。它可以用于创建逼真的合成图像,改进图像编辑工具的性能,并生成用于训练其他模型的合成数据。此外,该模型还可以应用于机器人导航和视觉辅助等领域,帮助机器人理解和生成周围环境的布局。
📄 摘要(原文)
We present CyCLeGen, a unified vision-language foundation model capable of both image understanding and image generation within a single autoregressive framework. Unlike existing vision models that depend on separate modules for perception and synthesis, CyCLeGen adopts a fully integrated architecture that enforces cycle-consistent learning through image->layout->image and layout->image->layout generation loops. This unified formulation introduces two key advantages: introspection, enabling the model to reason about its own generations, and data efficiency, allowing self-improvement via synthetic supervision under a reinforcement learning objective guided by cycle consistency. Extensive experiments show that CyCLeGen achieves significant gains across diverse image understanding and generation benchmarks, highlighting the potential of unified vision-language foundation models.