Towards Consistent Video Geometry Estimation
作者: Zhu Yu, Jingnan Gao, Runmin Zhang, Lingteng Qiu, Zhengyi Zhao, Rui Peng, Yichao Yan, Kejie Qiu, Siyu Zhu, Zilong Dong, Si-Yuan Cao, Hui-Liang Shen
分类: cs.CV
发布日期: 2026-05-28 (更新: 2026-05-29)
备注: Project webpage: https://pkqbajng.github.io/ViGeo/
💡 一句话要点
ViGeo:提出用于视频序列时空一致几何估计的通用前馈模型
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频几何估计 深度估计 表面法线估计 Transformer 动态分块注意力 数据精炼 长视频处理
📋 核心要点
- 现有视频几何估计方法在时序一致性、空间稠密性和长视频处理方面存在挑战。
- ViGeo通过动态分块注意力机制,使模型能够同时学习双向和因果时间上下文,提升时序一致性。
- ViGeo结合数据精炼框架,利用视频深度补全教师网络生成高质量训练目标,提升空间稠密性和几何可靠性。
📝 摘要(中文)
本文提出ViGeo,一个前馈基础模型,用于从视频序列中恢复空间稠密且时间一致的几何信息。ViGeo基于纯Transformer架构构建,无需特定任务的架构修改,支持统一模型内的流式、全序列和长视频推理。关键设计是动态分块注意力,它在训练期间使模型暴露于双向和因果时间上下文,并允许其在测试时调整其注意力模式而无需重新训练。为了提高监督质量,我们进一步引入了一个基于补全的数据精炼框架。该框架训练一个视频深度补全教师网络,该网络以稀疏和噪声注释为条件,并利用视频/多视图上下文来生成稠密、时间连贯且几何可靠的训练目标。除了深度和点云图之外,ViGeo还在同一框架内预测表面法线。ViGeo仅在公共数据集上训练,在在线、离线和长视频深度估计、表面法线估计和视频点云图估计方面均实现了最先进的性能。
🔬 方法详解
问题定义:现有视频几何估计方法通常难以在保持时序一致性的同时,生成空间稠密的几何信息,尤其是在处理长视频时,计算复杂度高,且容易出现误差累积。此外,训练数据的质量也直接影响模型的性能,而现有的标注数据往往存在稀疏性和噪声。
核心思路:ViGeo的核心思路是利用Transformer架构的强大建模能力,通过动态分块注意力机制学习视频序列的时空关系,并采用数据精炼框架生成高质量的训练数据。动态分块注意力允许模型在训练时同时接触双向和因果时间上下文,从而更好地捕捉视频中的时间依赖性。数据精炼框架则通过视频深度补全教师网络,利用视频上下文信息补全稀疏和噪声的标注,生成稠密、时间连贯且几何可靠的训练目标。
技术框架:ViGeo的整体框架包括一个基于Transformer的几何估计网络和一个数据精炼框架。几何估计网络接收视频序列作为输入,输出深度图、表面法线和点云图。数据精炼框架包含一个视频深度补全教师网络,该网络以稀疏标注和视频上下文为条件,生成稠密的深度图作为训练目标。整个训练过程采用端到端的方式进行。
关键创新:ViGeo的关键创新在于动态分块注意力机制和数据精炼框架。动态分块注意力机制允许模型在训练时同时学习双向和因果时间上下文,从而更好地捕捉视频中的时间依赖性。数据精炼框架则通过视频深度补全教师网络,生成高质量的训练数据,从而提高模型的性能和泛化能力。与现有方法相比,ViGeo无需针对特定任务进行架构修改,即可支持流式、全序列和长视频推理。
关键设计:动态分块注意力机制的具体实现方式是,将视频序列分成多个chunk,然后对每个chunk内的帧进行双向注意力计算,同时对chunk之间的帧进行因果注意力计算。数据精炼框架中的视频深度补全教师网络采用U-Net结构,并引入了时间一致性损失函数,以保证生成深度图的时间连贯性。损失函数包括深度损失、法线损失和点云损失,用于约束模型的输出。
🖼️ 关键图片
📊 实验亮点
ViGeo在多个公开数据集上取得了state-of-the-art的性能。在在线深度估计任务中,ViGeo相比于现有方法取得了显著的提升。在长视频深度估计任务中,ViGeo能够生成时间一致性更高的深度图。此外,ViGeo在表面法线估计和视频点云图估计任务中也取得了优异的性能,证明了其通用性和有效性。
🎯 应用场景
ViGeo具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实、增强现实、视频编辑和电影制作等领域。它可以为这些应用提供准确、稠密且时间一致的几何信息,从而提高系统的性能和用户体验。例如,在自动驾驶中,ViGeo可以用于感知周围环境,从而实现更安全、更可靠的驾驶。
📄 摘要(原文)
This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.