CyCLeGen: Cycle-Consistent Layout Prediction and Image Generation in Vision Foundation Models

作者: Xiaojun Shan, Haoyu Shen, Yucheng Mao, Xiang Zhang, Abhay Anand, Bingnan Li, Haiyang Xu, Zhuowen Tu

分类: cs.CV

发布日期: 2026-03-16

💡 一句话要点

CyCLeGen：视觉基础模型中循环一致的布局预测与图像生成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 图像生成 布局预测 循环一致性学习 自回归模型

📋 核心要点

现有视觉模型通常依赖分离的模块进行图像感知和图像生成，缺乏内在联系。
CyCLeGen通过循环一致性学习，将图像理解和生成统一在单一自回归框架中，实现模型内省。
实验结果表明，CyCLeGen在图像理解和生成任务上均取得了显著提升，验证了其有效性。

📝 摘要（中文）

本文提出CyCLeGen，一个统一的视觉-语言基础模型，能够在单一自回归框架内实现图像理解和图像生成。与依赖于独立模块进行感知和合成的现有视觉模型不同，CyCLeGen采用完全集成的架构，通过图像->布局->图像和布局->图像->布局的生成循环来强制执行循环一致性学习。这种统一的公式引入了两个关键优势：内省，使模型能够推理其自身的生成结果；以及数据效率，允许在循环一致性指导下的强化学习目标下，通过合成监督进行自我改进。大量实验表明，CyCLeGen在各种图像理解和生成基准测试中取得了显著的提升，突出了统一视觉-语言基础模型的潜力。

🔬 方法详解

问题定义：现有视觉模型通常采用分离的模块处理图像理解和图像生成任务，缺乏内在联系，难以进行自我评估和改进。模型无法有效地利用生成结果反过来提升理解能力，同时也限制了数据效率，难以通过合成数据进行有效训练。

核心思路：CyCLeGen的核心思路是利用循环一致性学习，将图像理解（布局预测）和图像生成统一到一个自回归框架中。通过图像->布局->图像和布局->图像->布局的循环，模型能够学习到图像和布局之间的双向映射关系，从而实现内省和自我改进。

技术框架：CyCLeGen采用统一的自回归架构，包含图像编码器、布局编码器和解码器。图像编码器将图像转换为特征表示，布局编码器将布局转换为特征表示，解码器则根据输入的特征表示生成图像或布局。整个框架通过循环一致性损失进行训练，鼓励模型生成与输入一致的结果。

关键创新：CyCLeGen的关键创新在于其循环一致性学习框架，它允许模型在图像和布局之间进行双向转换，从而实现内省和自我改进。这种统一的框架避免了使用分离的模块，简化了模型结构，并提高了数据效率。

关键设计：CyCLeGen使用Transformer作为其核心架构，并采用交叉注意力机制来实现图像和布局之间的交互。循环一致性损失包括图像重建损失和布局重建损失，用于衡量生成结果与输入之间的差异。此外，论文还使用了强化学习来进一步优化模型的生成能力，奖励循环一致的结果。

🖼️ 关键图片

📊 实验亮点

CyCLeGen在多个图像理解和生成基准测试中取得了显著的提升。例如，在图像生成任务中，CyCLeGen的FID得分优于现有方法。在布局预测任务中，CyCLeGen的准确率也得到了显著提高。这些结果表明，CyCLeGen能够有效地学习图像和布局之间的关系，并生成高质量的图像和布局。

🎯 应用场景

CyCLeGen具有广泛的应用前景，包括图像编辑、场景生成、数据增强等。它可以用于创建逼真的合成图像，改进图像编辑工具的性能，并生成用于训练其他模型的合成数据。此外，该模型还可以应用于机器人导航和视觉辅助等领域，帮助机器人理解和生成周围环境的布局。

📄 摘要（原文）

We present CyCLeGen, a unified vision-language foundation model capable of both image understanding and image generation within a single autoregressive framework. Unlike existing vision models that depend on separate modules for perception and synthesis, CyCLeGen adopts a fully integrated architecture that enforces cycle-consistent learning through image->layout->image and layout->image->layout generation loops. This unified formulation introduces two key advantages: introspection, enabling the model to reason about its own generations, and data efficiency, allowing self-improvement via synthetic supervision under a reinforcement learning objective guided by cycle consistency. Extensive experiments show that CyCLeGen achieves significant gains across diverse image understanding and generation benchmarks, highlighting the potential of unified vision-language foundation models.

CyCLeGen: Cycle-Consistent Layout Prediction and Image Generation in Vision Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理