Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

作者: Ziyi Zhang, Li Shen, Deheng Ye, Yong Luo, Huangxuan Zhao, Lefei Zhang

分类: cs.LG, cs.CV

发布日期: 2025-05-26

💡 一句话要点

提出基于强化学习的文本到多视角扩散模型优化框架，提升图像质量和视角一致性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文本到多视角生成 扩散模型 强化学习 视角一致性 图像质量 少步生成

📋 核心要点

现有少步文本到多视角生成方法在加速生成的同时，牺牲了图像质量和视角一致性。
论文提出基于强化学习的微调框架，通过联合优化视角质量和一致性来提升少步扩散模型性能。
实验表明，该方法在图像质量和视角一致性方面均优于现有方法，同时保持了较高的生成效率。

📝 摘要（中文）

本文提出了一种新颖的强化学习(RL)微调框架，专为少步文本到多视角(T2MV)扩散模型设计，以联合优化每个视角的图像质量和跨视角的视角一致性。具体而言，首先将所有视角的T2MV去噪过程重新定义为一个统一的马尔可夫决策过程，从而实现由联合视角奖励目标驱动的多视角感知策略优化。其次，引入ZMV-Sampling，一种测试时T2MV采样技术，通过增加反演-去噪过程来增强视角和文本条件，从而提高T2MV生成效果，但会增加推理时间。为了将ZMV-Sampling的性能增益融入到基础采样策略中，开发了MV-ZigAL，一种新颖的策略优化策略，它使用ZMV-Sampling相对于标准采样的奖励优势作为策略更新的学习信号。最后，注意到联合视角奖励目标会过度优化每个视角的图像质量，而简单地优化单视角指标会忽略跨视角对齐，因此将T2MV扩散模型的RL微调重新定义为一个约束优化问题，该问题在显式的联合视角约束下最大化每个视角的图像质量，从而实现更有效和平衡的策略更新。通过将这种约束优化范式与MV-ZigAL集成，建立了完整的RL微调框架MVC-ZigAL，有效地改进了少步T2MV扩散基线在图像质量和一致性方面的表现，同时保留了其少步效率。

🔬 方法详解

问题定义：文本到多视角生成（T2MV）旨在从单个文本提示生成一致的多视角图像。现有的少步扩散模型虽然加速了生成过程，但往往牺牲了图像的质量和视角之间的一致性。如何高效地生成高质量且视角一致的多视角图像是一个关键问题。

核心思路：论文的核心思路是利用强化学习（RL）来微调少步扩散模型，从而在图像质量和视角一致性之间取得平衡。通过将多视角生成过程建模为马尔可夫决策过程，并设计合适的奖励函数，可以引导模型学习到更好的生成策略。

技术框架：整体框架包括以下几个主要模块：1) 将T2MV去噪过程建模为统一的马尔可夫决策过程；2) 引入ZMV-Sampling技术，增强视角和文本条件；3) 开发MV-ZigAL策略优化算法，利用ZMV-Sampling的优势作为学习信号；4) 将RL微调重新定义为约束优化问题，在保证视角一致性的前提下最大化图像质量。最终的框架称为MVC-ZigAL。

关键创新：论文的关键创新在于：1) 将多视角生成问题建模为强化学习问题，并设计了相应的奖励函数和策略优化算法；2) 提出了ZMV-Sampling技术，增强了视角和文本条件，提高了生成质量；3) 将RL微调重新定义为约束优化问题，平衡了图像质量和视角一致性。

关键设计：关键设计包括：1) 联合视角奖励函数的设计，用于衡量多视角图像的一致性；2) ZMV-Sampling中反演-去噪过程的参数设置；3) MV-ZigAL算法中奖励优势的计算方法；4) 约束优化问题中约束条件的设置，用于保证视角一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在图像质量和视角一致性方面均优于现有的少步T2MV生成方法。具体而言，在保持少步生成效率的同时，该方法能够显著提高生成图像的FID和CLIP分数，并降低视角不一致性。

🎯 应用场景

该研究成果可应用于三维重建、虚拟现实、游戏开发等领域。例如，可以根据文本描述快速生成不同视角的3D模型，从而提高内容创作的效率和质量。此外，该技术还可以用于自动驾驶和机器人导航等领域，帮助系统更好地理解周围环境。

📄 摘要（原文）

Text-to-multiview (T2MV) generation, which produces coherent multiview images from a single text prompt, remains computationally intensive, while accelerated T2MV methods using few-step diffusion models often sacrifice image fidelity and view consistency. To address this, we propose a novel reinforcement learning (RL) finetuning framework tailored for few-step T2MV diffusion models to jointly optimize per-view fidelity and cross-view consistency. Specifically, we first reformulate T2MV denoising across all views as a single unified Markov decision process, enabling multiview-aware policy optimization driven by a joint-view reward objective. Next, we introduce ZMV-Sampling, a test-time T2MV sampling technique that adds an inversion-denoising pass to reinforce both viewpoint and text conditioning, resulting in improved T2MV generation at the cost of inference time. To internalize its performance gains into the base sampling policy, we develop MV-ZigAL, a novel policy optimization strategy that uses reward advantages of ZMV-Sampling over standard sampling as learning signals for policy updates. Finally, noting that the joint-view reward objective under-optimizes per-view fidelity but naively optimizing single-view metrics neglects cross-view alignment, we reframe RL finetuning for T2MV diffusion models as a constrained optimization problem that maximizes per-view fidelity subject to an explicit joint-view constraint, thereby enabling more efficient and balanced policy updates. By integrating this constrained optimization paradigm with MV-ZigAL, we establish our complete RL finetuning framework, referred to as MVC-ZigAL, which effectively refines the few-step T2MV diffusion baseline in both fidelity and consistency while preserving its few-step efficiency.

Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理