GemDepth: Geometry-Embedded Features for 3D-Consistent Video Depth

📄 arXiv: 2605.10525v1 📥 PDF

作者: Yuecheng LiulJunda Cheng, Longliang Liu, Wenjing Liao, Hanrui Cheng, Yuzhou Wang, Xin Yang

分类: cs.CV

发布日期: 2026-05-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出GemDepth框架,通过几何嵌入特征实现高精度的3D一致性视频深度估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视频深度估计 3D几何一致性 Transformer 相机位姿估计 时空特征融合 计算机视觉

📋 核心要点

  1. 现有视频深度估计方法在处理复杂相机运动时,难以维持严格的3D几何一致性,且在精细细节区域常出现空间模糊。
  2. 提出GemDepth框架,通过几何嵌入模块(GEM)显式建模相机位姿,并利用交替时空Transformer(ASTT)捕捉点级对应关系。
  3. 实验结果显示,该方法在多个基准数据集上达到SOTA性能,显著提升了复杂动态场景下的深度预测精度与时间稳定性。

📝 摘要(中文)

视频深度估计将单目预测扩展至时间域以确保连贯性。然而,现有方法在处理精细细节区域时常出现空间模糊,且难以维持时间一致性。研究指出,当前主要依赖Transformer进行时间平滑的方法,在面对旋转或剧烈视角变化时,难以保持严格的3D几何一致性。为此,本文提出了GemDepth框架,核心洞察在于显式的相机运动感知与全局3D结构是实现3D一致性的前提。GemDepth引入了几何嵌入模块(GEM),通过预测帧间相机位姿生成隐式几何嵌入,赋予网络内生的3D感知与对齐能力。在此几何线索引导下,交替时空Transformer(ASTT)捕捉潜在的点级对应关系,在增强空间细节精度的同时强制执行严格的时间一致性。此外,GemDepth采用数据高效的训练策略,实现了高效率与鲁棒几何一致性的平衡。实验表明,GemDepth在多个数据集上达到了SOTA水平,特别是在复杂动态场景中表现优异。

🔬 方法详解

问题定义:视频深度估计旨在从视频序列中推断深度图,现有方法多依赖Transformer进行时间平滑,但在处理剧烈相机运动或旋转时,往往无法保持严格的3D几何一致性,且在物体边缘等精细区域存在空间模糊问题。

核心思路:论文认为显式的相机运动感知与全局3D结构是实现3D一致性的前提。通过将几何先验注入网络,使模型具备内生的3D感知能力,从而在特征提取阶段即实现对齐,而非仅依赖后期的时序平滑。

技术框架:GemDepth包含两个核心组件:一是几何嵌入模块(GEM),负责预测帧间相机位姿并生成隐式几何嵌入;二是交替时空Transformer(ASTT),利用GEM提供的几何线索,在空间和时间维度上交替处理特征,以捕捉点级对应关系。

关键创新:引入几何嵌入模块(GEM)作为显式运动先验,将传统的“隐式时序对齐”转变为“基于几何感知的特征对齐”,这是该方法区别于现有基于纯Transformer架构的关键所在。

关键设计:ASTT模块通过交替执行空间注意力与时间注意力,有效平衡了空间细节恢复与时间一致性约束;同时采用数据高效的训练策略,在保证几何鲁棒性的前提下降低了对大规模标注数据的依赖。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GemDepth在多个主流视频深度估计数据集上实现了SOTA性能。实验表明,该方法在处理剧烈相机运动的复杂场景时,深度预测的误差指标(如Abs Rel, RMSE等)显著优于现有基线模型,且在时间一致性指标上表现出极高的稳定性,证明了几何嵌入策略的有效性。

🎯 应用场景

该研究在自动驾驶、机器人导航、增强现实(AR)及视频编辑等领域具有广泛应用价值。通过提供高精度、时间一致的深度信息,能够显著提升自动驾驶车辆对复杂动态环境的感知能力,并为AR应用中虚拟物体与真实场景的稳定融合提供坚实基础。

📄 摘要(原文)

Video depth estimation extends monocular prediction into the temporal domain to ensure coherence. However, existing methods often suffer from spatial blurring in fine-detail regions and temporal inconsistencies. We argue that current approaches, which primarily rely on temporal smoothing via Transformers, struggle to maintain strict 3D geometric consistency-particularly under rotations or drastic view changes. To address this, we propose GemDepth, a framework built on the insight that an explicit awareness of camera motion and global 3D structure is a prerequisite for 3D consistency. Distinctively, GemDepth introduces a Geometry-Embedding Module (GEM) that predicts inter-frame camera poses to generate implicit geometric embeddings. This injection of motion priors equips the network with intrinsic 3D perception and alignment capabilities. Guided by these geometric cues, our Alternating Spatio-Temporal Transformer (ASTT) captures latent point-level correspondences to simultaneously enhance spatial precision for sharp details and enforce rigorous temporal consistency. Furthermore, GemDepth employs a data-efficient training strategy, effectively bridging the gap between high efficiency and robust geometric consistency. As shown in Fig.2, comprehensive evaluations demonstrate that GemDepth achieves state-of-the-art performance across multiple datasets, particularly in complex dynamic scenarios. The code is publicly available at: https://github.com/Yuecheng919/GemDepth