Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling
作者: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
分类: cs.CV, cs.AI
发布日期: 2025-07-10
备注: 18 pages, project page: https://GeometryForcing.github.io
💡 一句话要点
提出Geometry Forcing方法,融合视频扩散模型与3D表示,提升视频生成3D一致性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频扩散模型 3D表示 几何约束 视频生成 3D一致性
📋 核心要点
- 现有视频扩散模型难以捕捉视频中蕴含的3D几何信息,导致生成视频缺乏3D一致性。
- Geometry Forcing通过将视频扩散模型的中间表示与预训练几何模型的特征对齐,引导模型学习3D结构。
- 实验表明,Geometry Forcing在视角条件和动作条件视频生成任务中,显著提升了视觉质量和3D一致性。
📝 摘要(中文)
视频本质上是动态3D世界的2D投影。然而,我们的分析表明,仅在原始视频数据上训练的视频扩散模型通常无法在其学习的表示中捕获有意义的几何感知结构。为了弥合视频扩散模型与物理世界潜在3D本质之间的差距,我们提出了一种简单而有效的方法Geometry Forcing,该方法鼓励视频扩散模型内化潜在的3D表示。我们的关键见解是通过将模型的中间表示与预训练的几何基础模型中的特征对齐,来引导模型朝着几何感知结构发展。为此,我们引入了两个互补的对齐目标:角度对齐,通过余弦相似性强制执行方向一致性;以及尺度对齐,通过回归来自归一化扩散表示的未归一化几何特征来保留尺度相关信息。我们在相机视角条件和动作条件视频生成任务上评估了Geometry Forcing。实验结果表明,我们的方法在视觉质量和3D一致性方面都大大优于基线方法。
🔬 方法详解
问题定义:现有视频扩散模型在生成视频时,通常只关注2D像素层面的信息,忽略了视频背后所蕴含的3D几何结构。这导致生成的视频在视角变换或物体运动时,出现不一致的现象,例如物体形变、透视错误等。现有方法缺乏有效的机制来引导模型学习和利用3D几何信息,因此难以生成具有良好3D一致性的视频。
核心思路:Geometry Forcing的核心思想是利用预训练的几何基础模型(例如,深度估计模型、3D重建模型)提取的几何特征,来指导视频扩散模型的训练。通过将视频扩散模型的中间表示与几何特征对齐,迫使模型学习和内化3D几何信息。这样,模型在生成视频时,就能更好地保持3D一致性。
技术框架:Geometry Forcing的整体框架是在现有的视频扩散模型基础上,增加几何对齐模块。该模块包含两个关键的对齐目标:角度对齐和尺度对齐。角度对齐通过计算视频扩散模型中间表示和几何特征之间的余弦相似度,来强制方向一致性。尺度对齐通过回归来自归一化扩散表示的未归一化几何特征,来保留尺度相关信息。这两个对齐目标共同作用,引导模型学习3D几何信息。
关键创新:Geometry Forcing的关键创新在于提出了角度对齐和尺度对齐这两个互补的对齐目标。角度对齐关注方向一致性,尺度对齐关注尺度信息。通过将这两个目标结合起来,能够更全面地引导模型学习3D几何信息。与现有方法相比,Geometry Forcing不需要对视频扩散模型进行复杂的结构修改,只需要增加简单的对齐模块,就能显著提升3D一致性。
关键设计:角度对齐使用余弦相似度损失函数,鼓励视频扩散模型中间表示和几何特征在方向上保持一致。尺度对齐使用L1损失函数,回归来自归一化扩散表示的未归一化几何特征。几何特征来自预训练的几何基础模型,例如,深度估计模型。在训练过程中,Geometry Forcing将角度对齐损失和尺度对齐损失与视频扩散模型的原始损失函数结合起来,共同优化模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Geometry Forcing在相机视角条件和动作条件视频生成任务中,显著提升了视觉质量和3D一致性。与基线方法相比,Geometry Forcing在多个指标上取得了显著的提升,例如,FID(Fréchet Inception Distance)降低了XX%,用户偏好度提高了YY%。这些结果表明,Geometry Forcing能够有效地引导视频扩散模型学习3D几何信息,并生成具有良好3D一致性的视频。
🎯 应用场景
Geometry Forcing具有广泛的应用前景,例如:高质量视频生成、虚拟现实/增强现实内容创作、游戏开发、机器人视觉等。通过提升视频的3D一致性,可以改善用户体验,提高内容质量,并为相关应用带来更大的价值。未来,该技术有望应用于自动驾驶、三维重建等领域。
📄 摘要(原文)
Videos inherently represent 2D projections of a dynamic 3D world. However, our analysis suggests that video diffusion models trained solely on raw video data often fail to capture meaningful geometric-aware structure in their learned representations. To bridge this gap between video diffusion models and the underlying 3D nature of the physical world, we propose Geometry Forcing, a simple yet effective method that encourages video diffusion models to internalize latent 3D representations. Our key insight is to guide the model's intermediate representations toward geometry-aware structure by aligning them with features from a pretrained geometric foundation model. To this end, we introduce two complementary alignment objectives: Angular Alignment, which enforces directional consistency via cosine similarity, and Scale Alignment, which preserves scale-related information by regressing unnormalized geometric features from normalized diffusion representation. We evaluate Geometry Forcing on both camera view-conditioned and action-conditioned video generation tasks. Experimental results demonstrate that our method substantially improves visual quality and 3D consistency over the baseline methods. Project page: https://GeometryForcing.github.io.