Towards Consistent Video Geometry Estimation

📄 arXiv: 2605.30060v1 📥 PDF

作者: Zhu Yu, Jingnan Gao, Runmin Zhang, Lingteng Qiu, Zhengyi Zhao, Rui Peng, Yichao Yan, Kejie Qiu, Siyu Zhu, Si-Yuan Cao, Hui-Liang Shen

分类: cs.CV

发布日期: 2026-05-28

备注: Project webpage: https://pkqbajng.github.io/ViGeo/


💡 一句话要点

ViGeo:用于视频序列时空一致几何估计的通用前馈模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频几何估计 深度估计 表面法线估计 Transformer 动态注意力 长视频处理 时间一致性 数据细化

📋 核心要点

  1. 现有视频几何估计方法在时间一致性、空间稠密性和长视频处理方面存在挑战,限制了其应用。
  2. ViGeo通过动态分块注意力机制,使模型能够同时学习双向和因果时间上下文,从而提升时间一致性。
  3. ViGeo结合数据细化框架,利用视频上下文补全稀疏深度信息,生成高质量训练目标,提升几何估计精度。

📝 摘要(中文)

本文提出ViGeo,一个前馈基础模型,用于从视频序列中恢复空间稠密且时间一致的几何信息。ViGeo构建于纯Transformer架构之上,无需特定任务的架构修改,支持统一模型内的流式、全序列和长视频推理。关键设计是动态分块注意力,它在训练期间使模型暴露于双向和因果时间上下文,并允许其在测试时调整其注意力模式而无需重新训练。为了提高监督质量,我们进一步引入了一个基于补全的数据细化框架。该框架训练一个视频深度补全教师网络,该网络以稀疏和噪声注释为条件,并利用视频/多视图上下文来生成稠密、时间连贯且几何可靠的训练目标。除了深度和点云图之外,ViGeo还在同一框架内预测表面法线。ViGeo仅在公共数据集上训练,在在线、离线和长视频深度估计、表面法线估计和视频点云图估计方面均实现了最先进的性能。

🔬 方法详解

问题定义:现有视频几何估计方法通常难以在保证空间稠密性的同时,维持时间上的一致性,尤其是在处理长视频时,容易出现漂移和抖动。此外,依赖特定任务的架构设计限制了模型的泛化能力。

核心思路:ViGeo的核心在于利用Transformer架构的强大建模能力,通过动态分块注意力机制学习视频序列的时空关系。该机制允许模型在训练时同时接触双向和因果的时间上下文,从而在推理时能够灵活地适应不同的视频长度和推理模式,保证时间一致性。

技术框架:ViGeo采用一个端到端的Transformer架构,输入为视频帧序列,输出为深度图、点云图和表面法线。主要包含以下模块:1) 视频帧编码器:将视频帧转换为特征表示。2) Transformer编码器:利用动态分块注意力机制学习时空特征。3) 解码器:将时空特征解码为深度图、点云图和表面法线。此外,还包含一个数据细化框架,用于生成高质量的训练数据。

关键创新:ViGeo的关键创新在于动态分块注意力机制和数据细化框架。动态分块注意力机制允许模型在训练时学习双向和因果时间上下文,并在推理时自适应地调整注意力模式,从而保证时间一致性。数据细化框架通过训练一个视频深度补全教师网络,利用视频上下文补全稀疏深度信息,生成高质量的训练目标。

关键设计:动态分块注意力机制的关键在于如何划分时间块以及如何计算块之间的注意力。论文采用了一种动态划分策略,根据视频内容自适应地调整块的大小。数据细化框架的关键在于教师网络的训练,论文采用了一种自监督学习方法,利用视频序列中的时间一致性作为监督信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViGeo在多个公开数据集上取得了state-of-the-art的性能,包括在线、离线和长视频深度估计、表面法线估计和视频点云图估计。例如,在长视频深度估计任务上,ViGeo相比于现有方法取得了显著的提升,在时间一致性方面表现尤为突出。

🎯 应用场景

ViGeo在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。它可以为机器人提供准确的环境几何信息,帮助机器人进行路径规划和避障。在自动驾驶领域,ViGeo可以用于构建高精地图,提高车辆的感知能力。在虚拟现实和增强现实领域,ViGeo可以用于生成逼真的三维场景,提升用户体验。

📄 摘要(原文)

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.