VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

📄 arXiv: 2603.26599v1 📥 PDF

作者: Zhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla

分类: cs.CV

发布日期: 2026-03-27

备注: Project Page: https://zhaochongan.github.io/projects/VGGRPO


💡 一句话要点

VGGRPO:利用4D潜在奖励实现世界一致性视频生成

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 几何一致性 扩散模型 潜在空间 强化学习 动态场景 群相对策略优化

📋 核心要点

  1. 现有视频扩散模型在几何一致性方面存在不足,尤其是在动态场景中,且依赖RGB空间奖励计算开销大。
  2. VGGRPO提出一种潜在几何引导框架,通过潜在几何模型(LGM)将视频扩散潜在变量与几何基础模型连接,实现几何信息的有效利用。
  3. 实验表明,VGGRPO在静态和动态场景中均能提升相机稳定性、几何一致性和整体视频质量,同时降低计算成本。

📝 摘要(中文)

大规模视频扩散模型在视觉质量上表现出色,但常常无法保持几何一致性。现有方法通过增强生成器或应用几何对齐来改善一致性,但架构修改会影响预训练模型的泛化能力,而现有对齐方法仅限于静态场景,并依赖于需要重复VAE解码的RGB空间奖励,导致计算开销大,且难以推广到高度动态的真实场景。为了在保持预训练能力的同时提高几何一致性,我们提出了VGGRPO(Visual Geometry GRPO),一种用于几何感知视频后训练的潜在几何引导框架。VGGRPO引入了潜在几何模型(LGM),将视频扩散潜在变量缝合到几何基础模型,从而能够直接从潜在空间解码场景几何。通过从具有4D重建能力的几何模型构建LGM,VGGRPO自然地扩展到动态场景,克服了先前方法的静态场景限制。在此基础上,我们使用两种互补的奖励执行潜在空间群相对策略优化:惩罚抖动轨迹的相机运动平滑奖励,以及强制执行跨视角几何一致性的几何重投影一致性奖励。在静态和动态基准上的实验表明,VGGRPO提高了相机稳定性、几何一致性和整体质量,同时消除了昂贵的VAE解码,使得潜在空间几何引导强化成为一种高效且灵活的世界一致性视频生成方法。

🔬 方法详解

问题定义:现有视频生成模型,特别是基于扩散模型的,虽然在视觉质量上取得了显著进展,但在生成具有几何一致性的视频方面仍然面临挑战。尤其是在处理动态场景时,现有方法要么需要对模型架构进行修改,影响预训练模型的泛化能力,要么依赖于RGB空间的奖励函数,需要频繁的VAE解码,计算成本高昂,且难以泛化到复杂的真实世界场景。

核心思路:VGGRPO的核心思路是在视频扩散模型的潜在空间中引入几何信息,通过学习一个潜在几何模型(LGM),将视频扩散模型的潜在变量与几何基础模型连接起来。这样可以直接从潜在空间解码场景几何信息,避免了昂贵的RGB空间操作。同时,利用几何信息作为奖励信号,通过强化学习的方式优化视频生成过程,从而提高视频的几何一致性。

技术框架:VGGRPO的整体框架包括以下几个主要模块:1) 视频扩散模型:用于生成视频的潜在表示。2) 潜在几何模型(LGM):将视频扩散模型的潜在变量映射到几何表示,例如4D场景重建。3) 奖励函数:包括相机运动平滑奖励和几何重投影一致性奖励,用于评估视频的几何质量。4) 群相对策略优化(GRPO):利用奖励函数优化视频生成过程,提高几何一致性。整个流程是在潜在空间中进行的,避免了昂贵的VAE解码。

关键创新:VGGRPO的关键创新在于:1) 提出了潜在几何模型(LGM),实现了潜在空间中的几何信息提取和利用。2) 利用4D重建几何模型,使其能够处理动态场景,克服了现有方法的静态场景限制。3) 采用群相对策略优化(GRPO)框架,在潜在空间中进行强化学习,提高了优化效率和稳定性。与现有方法相比,VGGRPO无需修改视频扩散模型的架构,保持了其泛化能力,同时降低了计算成本。

关键设计:LGM通过训练一个神经网络,将视频扩散模型的潜在变量映射到几何基础模型的潜在空间。相机运动平滑奖励惩罚相邻帧之间相机姿态的剧烈变化,鼓励生成平滑的相机轨迹。几何重投影一致性奖励鼓励不同视角下的几何信息保持一致,例如,将3D点投影到不同视角下,其位置应该与实际观测到的位置相符。GRPO算法用于优化视频生成策略,使其能够最大化奖励函数,从而生成具有更高几何一致性的视频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VGGRPO在静态和动态场景中均能显著提高视频的几何一致性。在相机稳定性方面,VGGRPO生成的视频抖动明显减少。在几何一致性方面,VGGRPO在多个指标上优于现有方法。此外,VGGRPO通过在潜在空间中进行优化,避免了昂贵的VAE解码,显著降低了计算成本,使得大规模视频生成成为可能。

🎯 应用场景

VGGRPO具有广泛的应用前景,包括虚拟现实/增强现实内容生成、自动驾驶场景模拟、电影特效制作、游戏开发等领域。通过提高视频的几何一致性,可以增强用户在虚拟环境中的沉浸感,提高自动驾驶系统的感知能力,并简化电影特效和游戏内容的制作流程。未来,该技术有望应用于更多需要高质量、几何一致性视频的场景。

📄 摘要(原文)

Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.