GeoFlow: Enforcing Implicit Geometric Consistency in Video Generation

📄 arXiv: 2605.18365v1 📥 PDF

作者: Jan Ackermann, Shengqu Cai, Boyang Deng, Zhengfei Kuang, Songyou Peng, Gordon Wetzstein

分类: cs.CV

发布日期: 2026-05-18

备注: Project Page: https://geometryflow.github.io/


💡 一句话要点

GeoFlow:通过几何一致性奖励提升视频生成中的时序稳定性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频生成 几何一致性 光流 深度估计 强化学习 扩散模型 时间稳定性

📋 核心要点

  1. 现有文本到视频生成模型在处理几何信息时存在不足,导致视频中出现物体变形和纹理漂移等问题。
  2. 论文提出了一种几何一致性奖励,通过光流、深度姿态预测等手段,显式地优化视频生成过程中的几何一致性。
  3. 实验结果表明,该方法能够有效减少视频中的时间几何伪影,同时保持视频的感知质量。

📝 摘要(中文)

生成几何一致的视频仍然是一个开放的挑战:在网络规模数据上训练的文本到视频扩散模型仅隐式地处理几何信息,导致物体变形、纹理漂移以及相机运动下非刚性背景。现有的解决方案要么将一致性作为副产品来改进,要么仅适用于静态场景,要么完全重新调整模型的潜在空间。我们引入了一种几何一致性奖励,它直接衡量生成视频中的运动是否与连贯的场景兼容。我们的关键见解是,在物理上一致的视频中,背景运动应该可以通过刚性相机引起的运动流来解释,而独立移动的物体应该沿着运动轨迹保持外观一致性。我们使用光流、深度-姿态预测和基于特征的对应关系来实现这一点,以分离刚性和动态区域并评估它们各自的一致性。将此奖励与强化微调相结合,将几何一致性从视频生成器的涌现属性转变为显式的优化目标。该方法与模型无关,适用于包含相机和物体运动的各种动态场景。实验表明,与强大的基线相比,时间几何伪影显着减少,同时保持了感知质量。代码和模型权重已发布。

🔬 方法详解

问题定义:当前文本到视频生成模型在处理复杂场景时,难以保证生成视频在时间上的几何一致性。具体表现为物体在时间上的形变、纹理漂移以及背景与相机运动不匹配等问题。现有方法要么是间接提升几何一致性,要么只能处理静态场景,缺乏通用性和有效性。

核心思路:论文的核心思路是将几何一致性作为视频生成过程中的一个显式优化目标。通过设计一个几何一致性奖励函数,直接衡量生成视频的运动是否符合物理规律。该奖励函数基于一个关键洞察:在物理上合理的视频中,背景运动应由刚性相机运动引起,而独立运动的物体应保持外观一致性。

技术框架:该方法主要包含以下几个模块:1) 光流估计模块,用于估计视频帧之间的像素运动;2) 深度和姿态预测模块,用于估计场景的深度信息和相机姿态;3) 特征匹配模块,用于建立视频中物体在不同帧之间的对应关系;4) 几何一致性奖励计算模块,基于上述信息计算视频的几何一致性得分;5) 强化学习微调模块,利用几何一致性奖励来优化视频生成模型。

关键创新:该论文最重要的创新在于将几何一致性从一个隐式属性转变为一个显式的优化目标。通过设计几何一致性奖励函数,可以直接引导视频生成模型生成几何上更合理的视频。与现有方法相比,该方法具有更强的通用性和可解释性,并且可以应用于各种动态场景。

关键设计:几何一致性奖励函数的设计是关键。该函数综合考虑了背景运动的刚性和前景物体外观的一致性。具体来说,对于背景区域,奖励函数鼓励光流与相机运动引起的运动流一致;对于前景物体,奖励函数鼓励物体在不同帧之间的特征相似性。此外,论文还使用了强化学习算法来优化视频生成模型,并仔细调整了奖励函数的权重和学习率等参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个数据集上显著优于现有基线方法。具体来说,该方法能够有效减少视频中的时间几何伪影,例如物体变形和纹理漂移。定量指标显示,该方法在几何一致性方面取得了显著提升,同时保持了视频的感知质量。与现有方法相比,该方法生成的视频更加稳定、逼真。

🎯 应用场景

该研究成果可广泛应用于视频内容创作、虚拟现实、游戏开发等领域。例如,可以用于生成更逼真、更稳定的虚拟场景,提升用户在VR/AR环境中的沉浸感。此外,该技术还可以用于视频修复、视频编辑等任务,提高视频质量和用户体验。未来,该方法有望进一步扩展到更复杂的场景,例如包含更多动态物体和复杂光照变化的视频生成。

📄 摘要(原文)

Generating geometrically consistent videos remains an open challenge: text-to-video diffusion models trained on web-scale data treat geometry only implicitly, leading to object deformation, texture drift, and non-rigid backgrounds under camera motion. Existing solutions either improve consistency as a byproduct, apply only to static scenes or realign the latent space of the model completely. We introduce a geometry-consistency reward that directly measures whether motion in a generated video is compatible with a coherent scene. Our key insight is that in physically consistent videos, background motion should be explainable by rigid camera-induced flow, while independently moving objects should preserve appearance identity along motion trajectories. We operationalize this using optical flow, depth--pose predictions, and feature-based correspondence to separate rigid and dynamic regions and evaluate their respective consistency. Integrating this reward with reinforcement fine-tuning transforms geometric consistency from an emergent property into an explicit optimization objective for video generators. The approach is model agnostic and applies to diverse dynamic scenes containing both camera and object motion. Experiments show substantial reductions in temporal geometric artifacts over strong baselines while preserving perceptual quality. Code and model weights are published.