Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning
作者: Hanbo Cheng, Limin Lin, Ruo Zhang, Yicheng Pan, Jun Du
分类: cs.CV, cs.AI
发布日期: 2026-05-14 (更新: 2026-05-15)
💡 一句话要点
提出CLVR框架,通过闭环验证推理提升复杂视觉生成效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到图像生成 闭环推理 视觉验证 强化学习 模型蒸馏 扩散模型 多模态学习
📋 核心要点
- 现有T2I模型在处理复杂语义时面临挑战,且单步生成范式存在局限性,参数扩展带来的收益递减。
- CLVR框架通过闭环视觉推理,将视觉-语言逻辑规划与像素级扩散生成深度耦合,解决规划幻觉和优化不稳定性问题。
- 实验结果表明,CLVR在多个基准测试中超越现有开源模型,性能接近商业模型,并具备通用测试时缩放能力。
📝 摘要(中文)
当前文本到图像(T2I)模型主要依赖单步生成范式,难以处理复杂语义,且参数扩展收益递减。多步推理方法虽有潜力,但受限于缺乏验证的规划幻觉、单体事后反思、长上下文优化不稳定以及过高的推理延迟。为克服这些瓶颈,我们提出了闭环视觉推理(CLVR)框架,该系统将视觉-语言逻辑规划与像素级扩散生成深度耦合。CLVR引入了具有步级视觉验证的自动化数据引擎,以合成可靠的推理轨迹,并提出了代理提示强化学习(PPRL),通过将交错的多模态历史提炼为显式奖励信号,解决长上下文优化不稳定性,实现精确的因果归因。此外,为了缓解迭代去噪带来的严重延迟瓶颈,我们提出了一种理论上合理的$Δ$-空间权重合并(DSWM)方法,该方法将对齐权重与现成的蒸馏先验融合,将每步推理成本降低到仅4个NFE,而无需昂贵的重新蒸馏。大量实验表明,CLVR在多个基准测试中优于现有的开源基线,并接近专有商业模型的性能,从而解锁了复杂视觉生成的通用测试时缩放能力。
🔬 方法详解
问题定义:现有文本到图像生成模型在处理复杂语义时表现不佳,主要原因是它们依赖于单步生成范式。多步推理方法虽然有潜力,但存在规划幻觉、优化不稳定以及推理延迟高等问题,限制了其在复杂场景下的应用。
核心思路:CLVR框架的核心思路是将视觉-语言逻辑规划与像素级扩散生成深度耦合,通过闭环验证推理来提升生成质量。具体来说,CLVR通过自动化数据引擎生成可靠的推理轨迹,并利用代理提示强化学习解决长上下文优化问题,同时采用权重合并技术降低推理延迟。
技术框架:CLVR框架包含三个主要模块:自动化数据引擎、代理提示强化学习(PPRL)和$Δ$-空间权重合并(DSWM)。自动化数据引擎负责生成带有步级视觉验证的推理轨迹;PPRL通过将多模态历史提炼为奖励信号,解决长上下文优化问题;DSWM则通过融合对齐权重和蒸馏先验,降低推理延迟。整体流程是,首先使用自动化数据引擎生成训练数据,然后使用PPRL训练模型,最后使用DSWM加速推理过程。
关键创新:CLVR的关键创新在于其闭环验证推理机制,以及PPRL和DSWM两种技术。闭环验证推理机制通过视觉验证来纠正规划中的错误,从而减少幻觉。PPRL通过显式奖励信号来指导模型的学习,解决长上下文优化问题。DSWM则通过权重合并来加速推理过程,无需重新蒸馏。
关键设计:自动化数据引擎使用预训练的视觉模型进行步级视觉验证,以确保推理轨迹的可靠性。PPRL使用Transformer模型来编码多模态历史,并使用强化学习算法来优化模型。DSWM使用线性插值来融合对齐权重和蒸馏先验,并根据理论推导选择合适的插值系数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLVR在多个基准测试中优于现有开源基线,例如在复杂场景生成任务中,CLVR的FID得分显著优于其他模型。此外,CLVR的性能接近专有商业模型,并且具备通用测试时缩放能力。DSWM技术将每步推理成本降低到仅4个NFE,显著提升了推理速度。
🎯 应用场景
CLVR框架可应用于各种需要复杂视觉生成的场景,例如创意设计、虚拟现实、游戏开发等。该研究成果有助于提升图像生成质量,降低生成成本,并为未来的视觉生成技术发展提供新的思路。此外,该框架的闭环验证推理机制也为其他人工智能任务提供了借鉴。
📄 摘要(原文)
Despite rapid advancements, current text-to-image (T2I) models predominantly rely on a single-step generation paradigm, which struggles with complex semantics and faces diminishing returns from parameter scaling. While recent multi-step reasoning approaches show promise, they are hindered by ungrounded planning hallucinations lacking verification, monolithic post-hoc reflection, long-context optimization instabilities, and prohibitive inference latency. To overcome these bottlenecks, we propose the Closed-Loop Visual Reasoning (CLVR) framework, a comprehensive system that deeply couples visual-language logical planning with pixel-level diffusion generation. CLVR introduces an automated data engine with step-level visual verification to synthesize reliable reasoning trajectories, and proposes Proxy Prompt Reinforcement Learning (PPRL) to resolve long-context optimization instabilities by distilling interleaved multimodal histories into explicit reward signals for accurate causal attribution. Furthermore, to mitigate the severe latency bottleneck caused by iterative denoising, we propose $Δ$-Space Weight Merge (DSWM), a theoretically grounded method that fuses alignment weights with off-the-shelf distillation priors, reducing the per-step inference cost to just 4 NFEs without requiring expensive re-distillation. Extensive experiments demonstrate that CLVR outperforms existing open-source baselines across multiple benchmarks and approaches the performance of proprietary commercial models, unlocking general test-time scaling capabilities for complex visual generation.