Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

作者: Hanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du

分类: cs.CV, cs.AI

发布日期: 2026-05-14

💡 一句话要点

提出CLVR框架，通过闭环验证推理提升复杂视觉生成效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到图像生成 闭环推理 视觉验证 强化学习 扩散模型 模型蒸馏 多模态学习

📋 核心要点

现有文本到图像模型在处理复杂语义时表现不佳，且单步生成范式存在局限性，参数扩展带来的收益递减。
CLVR框架通过闭环视觉推理，将视觉-语言逻辑规划与像素级扩散生成深度耦合，解决规划幻觉和长上下文优化问题。
实验结果表明，CLVR在多个基准测试中超越现有开源模型，性能接近商业模型，并具备通用测试时缩放能力。

📝 摘要（中文）

当前文本到图像（T2I）模型主要依赖单步生成范式，难以处理复杂语义，且参数扩展收益递减。多步推理方法虽有潜力，但受限于缺乏验证的规划幻觉、整体式事后反思、长上下文优化不稳定以及过高的推理延迟。为克服这些瓶颈，本文提出闭环视觉推理（CLVR）框架，将视觉-语言逻辑规划与像素级扩散生成深度耦合。CLVR引入自动数据引擎，通过步级视觉验证合成可靠的推理轨迹；提出代理提示强化学习（PPRL），通过将交错的多模态历史提炼为显式奖励信号，解决长上下文优化不稳定问题，实现精确的因果归因。此外，为缓解迭代去噪带来的严重延迟瓶颈，提出Δ-空间权重融合（DSWM），这是一种具有理论基础的方法，将对齐权重与现成的蒸馏先验融合，将每步推理成本降低到仅4个NFEs，无需昂贵的重新蒸馏。大量实验表明，CLVR在多个基准测试中优于现有开源基线，并接近专有商业模型的性能，为复杂视觉生成解锁了通用测试时缩放能力。

🔬 方法详解

问题定义：现有文本到图像生成模型难以处理复杂的语义关系，尤其是在需要多步推理和规划的场景下。现有的多步推理方法存在规划幻觉，缺乏有效的验证机制，导致生成结果与预期不符。此外，长上下文优化不稳定以及迭代去噪带来的高延迟也限制了其应用。

核心思路：CLVR的核心思路是将视觉-语言逻辑规划与像素级扩散生成深度耦合，通过闭环反馈机制来验证和修正每一步的推理结果。具体来说，它利用自动数据引擎生成可靠的推理轨迹，并使用代理提示强化学习（PPRL）来解决长上下文优化问题，同时采用Δ-空间权重融合（DSWM）来降低推理延迟。

技术框架：CLVR框架包含以下几个主要模块：1) 自动数据引擎：用于生成包含步级视觉验证的推理轨迹数据。2) 视觉-语言逻辑规划模块：负责根据文本描述进行逻辑规划，生成中间步骤。3) 像素级扩散生成模块：根据规划的中间步骤生成图像。4) 代理提示强化学习（PPRL）模块：通过显式奖励信号来优化长上下文推理过程。5) Δ-空间权重融合（DSWM）模块：用于加速扩散模型的推理过程。

关键创新：CLVR的关键创新在于：1) 引入了闭环验证机制，通过视觉验证来纠正规划中的错误。2) 提出了代理提示强化学习（PPRL），解决了长上下文优化不稳定问题。3) 提出了Δ-空间权重融合（DSWM），显著降低了推理延迟，无需重新蒸馏。

关键设计：PPRL通过将交错的多模态历史提炼为显式奖励信号，从而实现精确的因果归因。DSWM通过融合对齐权重与现成的蒸馏先验，将每步推理成本降低到仅4个NFEs。自动数据引擎使用步级视觉验证来确保推理轨迹的可靠性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

CLVR在多个基准测试中超越了现有的开源模型，并且性能接近专有的商业模型。通过引入Δ-空间权重融合（DSWM），推理速度显著提升，每步推理成本降低到仅4个NFEs，无需重新蒸馏。PPRL有效解决了长上下文优化问题，提升了生成结果的质量。

🎯 应用场景

CLVR框架可应用于各种需要复杂视觉生成的场景，例如：根据详细描述生成特定场景的图像、根据故事生成连贯的视觉内容、以及在设计领域根据需求生成产品原型。该研究的实际价值在于提升了文本到图像生成模型的质量和效率，未来有望推动虚拟现实、游戏开发、广告设计等领域的发展。

📄 摘要（原文）

Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose $Δ$-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理