Guided Trajectory Optimization with Sparse Scaling for Test-Time Diffusion
作者: Gang Dai, Yining Huang, Yiming Xia, Guohao Chen, Shuaicheng Niu
分类: cs.CV
发布日期: 2026-05-21
💡 一句话要点
提出RTS:通过奖励引导的稀疏缩放优化扩散模型测试时性能
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 扩散模型 测试时缩放 奖励引导 轨迹优化 稀疏缩放
📋 核心要点
- 现有测试时缩放方法依赖预定义噪声池,缺乏去噪轨迹上的灵活性,限制了生成性能。
- RTS通过奖励引导噪声优化和稀疏缩放框架,主动探索有希望的区域并压缩搜索空间。
- 实验结果表明,RTS在GenEval和ImageReward评分上显著优于现有方法,达到新的SOTA。
📝 摘要(中文)
高效的测试时缩放(TTS)范式为提升扩散模型的生成性能提供了一个有前景的视角。然而,现有的解决方案仅限于静态的、预定义的噪声池,并且在去噪轨迹中缺乏灵活的噪声探索。为了弥补这一差距,我们提出RTS,一种新颖的奖励引导轨迹缩放方法,以充分释放扩散模型的生成潜力。与现有方法不同,RTS通过两个核心创新促进了精细化、高保真图像的合成:1)一种奖励引导的噪声优化策略,主动引导搜索到有希望的区域;2)一个稀疏测试时缩放框架,结合PCA驱动的曲率分析方案,优先考虑整个去噪空间中的关键中间步骤,有效地压缩搜索空间。实验表明,我们的方法在GenEval评分上优于基线15.6%,在ImageReward评分上提升了60.4%,在提供更有效的扩散模型测试时缩放的实践指导的同时,也建立了一个新的SOTA。
🔬 方法详解
问题定义:现有的测试时缩放(TTS)方法在提升扩散模型生成质量方面取得了进展,但它们通常依赖于预定义的静态噪声池。这意味着在去噪过程中,模型无法灵活地探索不同的噪声水平和轨迹,从而限制了其生成高质量图像的潜力。现有方法的痛点在于缺乏对去噪轨迹的动态优化和对关键中间步骤的有效识别。
核心思路:RTS的核心思路是通过奖励引导的噪声优化策略,主动地引导搜索过程朝着更有希望的区域发展。同时,利用稀疏测试时缩放框架和PCA驱动的曲率分析,优先考虑去噪过程中的关键中间步骤,从而有效地压缩搜索空间。这种方法旨在克服现有TTS方法的局限性,实现更精细化和高保真度的图像生成。
技术框架:RTS的整体框架包含以下几个主要阶段:1) 奖励函数设计:定义一个奖励函数,用于评估生成图像的质量和与目标图像的相似度。2) 噪声优化:利用奖励函数引导噪声的优化过程,主动探索更有希望的噪声区域。3) 稀疏缩放:通过PCA驱动的曲率分析,识别去噪过程中的关键中间步骤,并对这些步骤进行优先缩放。4) 图像生成:利用优化后的噪声和缩放后的去噪轨迹,生成最终的图像。
关键创新:RTS的关键创新在于以下两点:1) 奖励引导的噪声优化:与现有方法不同,RTS不是简单地从预定义的噪声池中选择噪声,而是通过奖励函数引导噪声的优化过程,从而能够更有效地探索有希望的噪声区域。2) 稀疏测试时缩放:RTS利用PCA驱动的曲率分析,识别去噪过程中的关键中间步骤,并对这些步骤进行优先缩放,从而有效地压缩搜索空间,提高生成效率。与现有方法的全量缩放相比,RTS更加高效。
关键设计:RTS的关键设计包括:1) 奖励函数:奖励函数的设计需要仔细考虑,以确保能够准确地评估生成图像的质量和与目标图像的相似度。可以使用诸如ImageReward等预训练模型作为奖励函数。2) PCA驱动的曲率分析:PCA用于分析去噪轨迹的曲率,从而识别关键的中间步骤。曲率较高的步骤被认为是更重要的,应该优先进行缩放。3) 稀疏缩放比例:需要确定一个合适的稀疏比例,以平衡生成质量和计算效率。过高的稀疏比例可能会导致生成质量下降,而过低的稀疏比例则会增加计算成本。
🖼️ 关键图片
📊 实验亮点
RTS在GenEval评分上优于基线方法15.6%,在ImageReward评分上提升了60.4%,显著超越了现有技术水平。这些结果表明,RTS能够有效地提升扩散模型的生成质量和图像逼真度。此外,RTS的稀疏缩放框架能够有效地压缩搜索空间,提高生成效率,使其在实际应用中更具优势。
🎯 应用场景
RTS方法具有广泛的应用前景,可以应用于图像修复、图像超分辨率、图像编辑等领域。通过优化扩散模型的测试时性能,RTS可以生成更高质量、更逼真的图像,从而提升用户体验。此外,RTS还可以应用于医学图像分析、遥感图像处理等领域,为这些领域提供更准确、更可靠的图像生成和分析工具。未来,RTS有望成为扩散模型测试时优化的一个重要方向。
📄 摘要(原文)
The efficient Test-Time Scaling (TTS) paradigm offers a promising perspective for enhancing the generation performance of diffusion models. However, current solutions are limited to a static, pre-defined noise pool and suffer from inflexible noise exploration across the denoising trajectory. To bridge this gap, we propose RTS, a novel Reward-guided Trajectory Scaling method to fully unlock the generative potential of diffusion models. Unlike existing methods, RTS facilitates the synthesis of refined, high-fidelity images via two core innovations: 1) a reward-guided noise optimization strategy to actively direct the search towards promising regions; and 2) a sparse test-time scaling framework together with a PCA-driven curvature analysis scheme to prioritize key intermediate steps in the entire denoising space, effectively compressing the search space. Experiments show our approach outperforms baselines by 15.6% across GenEval Score, and a 60.4% enhancement in ImageReward score, setting a new SOTA while providing a practical guideline for more effective test-time scaling across diffusion-specific architectures.