Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

作者: Hanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du

分类: cs.CV, cs.AI

发布日期: 2026-05-14 (更新: 2026-05-15)

💡 一句话要点

提出CLVR框架，通过闭环验证推理提升复杂视觉生成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 闭环推理 视觉验证 强化学习 模型蒸馏 扩散模型 多模态学习

📋 核心要点

现有T2I模型在处理复杂语义时面临挑战，且单步生成范式存在局限性，参数扩展带来的收益递减。
CLVR框架通过闭环视觉推理，将视觉-语言逻辑规划与像素级扩散生成深度耦合，解决规划幻觉和优化不稳定性问题。
实验结果表明，CLVR在多个基准测试中超越现有开源模型，性能接近商业模型，并具备通用测试时缩放能力。

📝 摘要（中文）

当前文本到图像（T2I）模型主要依赖单步生成范式，难以处理复杂语义，且参数扩展收益递减。多步推理方法虽有潜力，但受限于缺乏验证的规划幻觉、单体事后反思、长上下文优化不稳定以及过高的推理延迟。为克服这些瓶颈，我们提出了闭环视觉推理（CLVR）框架，该系统将视觉-语言逻辑规划与像素级扩散生成深度耦合。CLVR引入了具有步级视觉验证的自动化数据引擎，以合成可靠的推理轨迹，并提出了代理提示强化学习（PPRL），通过将交错的多模态历史提炼为显式奖励信号，解决长上下文优化不稳定性，实现精确的因果归因。此外，为了缓解迭代去噪带来的严重延迟瓶颈，我们提出了一种理论上合理的$Δ$-空间权重合并（DSWM）方法，该方法将对齐权重与现成的蒸馏先验融合，将每步推理成本降低到仅4个NFE，而无需昂贵的重新蒸馏。大量实验表明，CLVR在多个基准测试中优于现有的开源基线，并接近专有商业模型的性能，从而解锁了复杂视觉生成的通用测试时缩放能力。

🔬 方法详解

问题定义：现有文本到图像生成模型在处理复杂语义时表现不佳，主要原因是它们依赖于单步生成范式。多步推理方法虽然有潜力，但存在规划幻觉、优化不稳定以及推理延迟高等问题，限制了其在复杂场景下的应用。

核心思路：CLVR框架的核心思路是将视觉-语言逻辑规划与像素级扩散生成深度耦合，通过闭环验证推理来提升生成质量。具体来说，CLVR通过自动化数据引擎生成可靠的推理轨迹，并利用代理提示强化学习解决长上下文优化问题，同时采用权重合并技术降低推理延迟。

技术框架：CLVR框架包含三个主要模块：自动化数据引擎、代理提示强化学习（PPRL）和$Δ$-空间权重合并（DSWM）。自动化数据引擎负责生成带有步级视觉验证的推理轨迹；PPRL通过将多模态历史提炼为奖励信号，解决长上下文优化问题；DSWM则通过融合对齐权重和蒸馏先验，降低推理延迟。整体流程是，首先使用自动化数据引擎生成训练数据，然后使用PPRL训练模型，最后使用DSWM加速推理过程。

关键创新：CLVR的关键创新在于其闭环验证推理机制，以及PPRL和DSWM两种技术。闭环验证推理机制通过视觉验证来纠正规划中的错误，从而减少幻觉。PPRL通过显式奖励信号来指导模型的学习，解决长上下文优化问题。DSWM则通过权重合并来加速推理过程，无需重新蒸馏。

关键设计：自动化数据引擎使用预训练的视觉模型进行步级视觉验证，以确保推理轨迹的可靠性。PPRL使用Transformer模型来编码多模态历史，并使用强化学习算法来优化模型。DSWM使用线性插值来融合对齐权重和蒸馏先验，并根据理论推导选择合适的插值系数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLVR在多个基准测试中优于现有开源基线，例如在复杂场景生成任务中，CLVR的FID得分显著优于其他模型。此外，CLVR的性能接近专有商业模型，并且具备通用测试时缩放能力。DSWM技术将每步推理成本降低到仅4个NFE，显著提升了推理速度。

🎯 应用场景

CLVR框架可应用于各种需要复杂视觉生成的场景，例如创意设计、虚拟现实、游戏开发等。该研究成果有助于提升图像生成质量，降低生成成本，并为未来的视觉生成技术发展提供新的思路。此外，该框架的闭环验证推理机制也为其他人工智能任务提供了借鉴。

📄 摘要（原文）

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose $Δ$-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理