Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning
作者: Hanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du
分类: cs.CV, cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出CLVR框架,通过闭环验证推理提升复杂视觉生成效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 闭环推理 视觉验证 强化学习 扩散模型 模型蒸馏 多模态学习
📋 核心要点
- 现有文本到图像模型在处理复杂语义时表现不佳,且单步生成范式存在局限性,参数扩展带来的收益递减。
- CLVR框架通过闭环视觉推理,将视觉-语言逻辑规划与像素级扩散生成深度耦合,解决规划幻觉和长上下文优化问题。
- 实验结果表明,CLVR在多个基准测试中超越现有开源模型,性能接近商业模型,并具备通用测试时缩放能力。
📝 摘要(中文)
当前文本到图像(T2I)模型主要依赖单步生成范式,难以处理复杂语义,且参数扩展收益递减。多步推理方法虽有潜力,但受限于缺乏验证的规划幻觉、整体式事后反思、长上下文优化不稳定以及过高的推理延迟。为克服这些瓶颈,本文提出闭环视觉推理(CLVR)框架,将视觉-语言逻辑规划与像素级扩散生成深度耦合。CLVR引入自动数据引擎,通过步级视觉验证合成可靠的推理轨迹;提出代理提示强化学习(PPRL),通过将交错的多模态历史提炼为显式奖励信号,解决长上下文优化不稳定问题,实现精确的因果归因。此外,为缓解迭代去噪带来的严重延迟瓶颈,提出Δ-空间权重融合(DSWM),这是一种具有理论基础的方法,将对齐权重与现成的蒸馏先验融合,将每步推理成本降低到仅4个NFEs,无需昂贵的重新蒸馏。大量实验表明,CLVR在多个基准测试中优于现有开源基线,并接近专有商业模型的性能,为复杂视觉生成解锁了通用测试时缩放能力。
🔬 方法详解
问题定义:现有文本到图像生成模型难以处理复杂的语义关系,尤其是在需要多步推理和规划的场景下。现有的多步推理方法存在规划幻觉,缺乏有效的验证机制,导致生成结果与预期不符。此外,长上下文优化不稳定以及迭代去噪带来的高延迟也限制了其应用。
核心思路:CLVR的核心思路是将视觉-语言逻辑规划与像素级扩散生成深度耦合,通过闭环反馈机制来验证和修正每一步的推理结果。具体来说,它利用自动数据引擎生成可靠的推理轨迹,并使用代理提示强化学习(PPRL)来解决长上下文优化问题,同时采用Δ-空间权重融合(DSWM)来降低推理延迟。
技术框架:CLVR框架包含以下几个主要模块:1) 自动数据引擎:用于生成包含步级视觉验证的推理轨迹数据。2) 视觉-语言逻辑规划模块:负责根据文本描述进行逻辑规划,生成中间步骤。3) 像素级扩散生成模块:根据规划的中间步骤生成图像。4) 代理提示强化学习(PPRL)模块:通过显式奖励信号来优化长上下文推理过程。5) Δ-空间权重融合(DSWM)模块:用于加速扩散模型的推理过程。
关键创新:CLVR的关键创新在于:1) 引入了闭环验证机制,通过视觉验证来纠正规划中的错误。2) 提出了代理提示强化学习(PPRL),解决了长上下文优化不稳定问题。3) 提出了Δ-空间权重融合(DSWM),显著降低了推理延迟,无需重新蒸馏。
关键设计:PPRL通过将交错的多模态历史提炼为显式奖励信号,从而实现精确的因果归因。DSWM通过融合对齐权重与现成的蒸馏先验,将每步推理成本降低到仅4个NFEs。自动数据引擎使用步级视觉验证来确保推理轨迹的可靠性。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
CLVR在多个基准测试中超越了现有的开源模型,并且性能接近专有的商业模型。通过引入Δ-空间权重融合(DSWM),推理速度显著提升,每步推理成本降低到仅4个NFEs,无需重新蒸馏。PPRL有效解决了长上下文优化问题,提升了生成结果的质量。
🎯 应用场景
CLVR框架可应用于各种需要复杂视觉生成的场景,例如:根据详细描述生成特定场景的图像、根据故事生成连贯的视觉内容、以及在设计领域根据需求生成产品原型。该研究的实际价值在于提升了文本到图像生成模型的质量和效率,未来有望推动虚拟现实、游戏开发、广告设计等领域的发展。
📄 摘要(原文)
Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose $Δ$-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.