VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment

📄 arXiv: 2603.16271v1 📥 PDF

作者: Tengjiao Yin, Jinglei Shi, Heng Guo, Xi Wang

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

VIGOR:面向视频几何一致性的时序生成对齐方法,提升视频扩散模型质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 扩散模型 几何一致性 奖励模型 时序对齐

📋 核心要点

  1. 视频扩散模型缺乏几何约束,导致生成视频出现形变、漂移和深度不一致等问题。
  2. 提出基于几何的奖励模型,利用预训练几何模型评估跨帧重投影误差,实现多视角一致性。
  3. 通过后训练和推理时优化,提升视频扩散模型质量,无需大量计算资源重新训练。

📝 摘要(中文)

视频扩散模型在训练过程中缺乏显式的几何监督,导致生成的视频中出现物体变形、空间漂移和深度不一致等问题。为了解决这一局限性,我们提出了一种基于几何的奖励模型,该模型利用预训练的几何基础模型,通过跨帧重投影误差来评估多视角一致性。与以往在像素空间中衡量不一致性的几何指标不同(像素强度可能引入额外噪声),我们的方法以逐点方式进行误差计算,从而产生更符合物理规律且更鲁棒的误差度量。此外,我们引入了一种几何感知采样策略,该策略过滤掉低纹理和非语义区域,将评估重点放在具有可靠对应关系的几何意义区域,以提高鲁棒性。我们将此奖励模型应用于通过两种互补途径对齐视频扩散模型:通过SFT或强化学习对双向模型进行后训练,以及通过测试时缩放(将我们的奖励作为路径验证器)对因果视频模型(例如,流式视频生成器)进行推理时优化。实验结果验证了我们设计的有效性,表明我们的基于几何的奖励比其他变体具有更高的鲁棒性。通过实现高效的推理时缩放,我们的方法为增强开源视频模型提供了一种实用的解决方案,而无需大量的计算资源进行重新训练。

🔬 方法详解

问题定义:视频生成模型,特别是视频扩散模型,在训练过程中缺乏对几何一致性的显式监督。这导致生成的视频在时序上出现不一致的伪影,例如物体变形、空间漂移以及违反深度信息的现象。现有方法通常依赖像素空间的不一致性度量,容易受到光照变化、纹理差异等因素的干扰,从而影响几何一致性评估的准确性。

核心思路:本文的核心思路是利用预训练的几何基础模型,提取视频帧中的几何信息,并通过跨帧重投影误差来评估视频的时序几何一致性。通过在几何空间而非像素空间进行误差计算,可以减少光照和纹理等因素的干扰,从而获得更鲁棒的几何一致性度量。此外,引入几何感知采样策略,聚焦于具有可靠对应关系的几何意义区域,进一步提升评估的准确性。

技术框架:VIGOR方法包含以下几个主要模块:1) 几何特征提取:利用预训练的几何基础模型(如深度估计模型、光流估计模型)提取视频帧的深度信息和运动信息。2) 跨帧重投影:将视频帧中的像素点根据深度信息和运动信息重投影到其他帧中。3) 几何误差计算:计算重投影后的像素点与目标帧中对应像素点之间的误差,作为几何不一致性的度量。4) 奖励模型:将几何误差作为奖励信号,用于指导视频扩散模型的训练或推理过程。5) 几何感知采样:过滤掉低纹理和非语义区域,只在具有可靠对应关系的几何意义区域进行误差计算。

关键创新:该方法最重要的创新点在于提出了基于几何的奖励模型,该模型直接在几何空间中评估视频的时序一致性,避免了像素空间误差计算的局限性。此外,几何感知采样策略能够有效提升评估的鲁棒性。与现有方法相比,VIGOR方法能够更准确地捕捉视频中的几何不一致性,从而生成更逼真、更稳定的视频。

关键设计:在几何误差计算方面,论文采用逐点的方式计算重投影误差,避免了像素强度带来的噪声。几何感知采样策略通过预先设定的阈值过滤掉低纹理和非语义区域。奖励模型可以通过SFT或强化学习的方式对双向模型进行后训练,也可以在推理时通过测试时缩放的方式对因果视频模型进行优化。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VIGOR方法在视频生成任务中能够显著提升视频的时序几何一致性。与其他基线方法相比,VIGOR方法生成的视频在物体变形、空间漂移和深度一致性方面表现更优。通过推理时缩放,VIGOR方法能够有效提升开源视频模型的性能,而无需进行大规模的重新训练。

🎯 应用场景

该研究成果可应用于视频生成、视频编辑、虚拟现实等领域。通过提升视频的时序几何一致性,可以生成更逼真、更稳定的视频内容,改善用户体验。该方法尤其适用于开源视频模型的优化,无需大量计算资源即可提升模型性能,具有很高的实际应用价值。

📄 摘要(原文)

Video diffusion models lack explicit geometric supervision during training, leading to inconsistency artifacts such as object deformation, spatial drift, and depth violations in generated videos. To address this limitation, we propose a geometry-based reward model that leverages pretrained geometric foundation models to evaluate multi-view consistency through cross-frame reprojection error. Unlike previous geometric metrics that measure inconsistency in pixel space, where pixel intensity may introduce additional noise, our approach conducts error computation in a pointwise fashion, yielding a more physically grounded and robust error metric. Furthermore, we introduce a geometry-aware sampling strategy that filters out low-texture and non-semantic regions, focusing evaluation on geometrically meaningful areas with reliable correspondences to improve robustness. We apply this reward model to align video diffusion models through two complementary pathways: post-training of a bidirectional model via SFT or Reinforcement Learning and inference-time optimization of a Causal Video Model (e.g., Streaming video generator) via test-time scaling with our reward as a path verifier. Experimental results validate the effectiveness of our design, demonstrating that our geometry-based reward provides superior robustness compared to other variants. By enabling efficient inference-time scaling, our method offers a practical solution for enhancing open-source video models without requiring extensive computational resources for retraining.