DVD: Deterministic Video Depth Estimation with Generative Priors
作者: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen
分类: cs.CV
发布日期: 2026-03-12
备注: Project: https://dvd-project.github.io/
💡 一句话要点
DVD:利用生成先验实现确定性视频深度估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频深度估计 扩散模型 零样本学习 几何先验 确定性回归
📋 核心要点
- 现有视频深度估计方法在生成模型和判别模型之间存在权衡,前者易出现幻觉和漂移,后者依赖大量标注数据。
- DVD通过将预训练视频扩散模型适配为确定性深度回归器,利用扩散时间步长作为结构锚点,平衡全局稳定性和细节。
- DVD引入潜在流形校正和全局仿射一致性,缓解过平滑问题,实现长视频无缝推理,并在零样本学习上取得SOTA结果。
📝 摘要(中文)
现有的视频深度估计面临着根本性的权衡:生成模型存在随机几何幻觉和尺度漂移的问题,而判别模型需要大量的标注数据集来解决语义模糊性。为了打破这一僵局,我们提出了DVD,这是第一个将预训练的视频扩散模型确定性地适配到单次深度回归器的框架。具体来说,DVD具有三个核心设计:(i)将扩散时间步长重新用作结构锚点,以平衡全局稳定性和高频细节;(ii)潜在流形校正(LMR)以减轻回归引起的过度平滑,强制执行微分约束以恢复清晰的边界和连贯的运动;(iii)全局仿射一致性,一种限制窗口间差异的固有属性,从而实现无缝的长视频推理,而无需复杂的时序对齐。大量的实验表明,DVD在各个基准测试中实现了最先进的零样本性能。此外,DVD成功地解锁了视频基础模型中隐含的深刻几何先验,使用的数据量比领先的基线少163倍。值得注意的是,我们完全发布了我们的pipeline,为SOTA视频深度估计提供了完整的训练套件,以使开源社区受益。
🔬 方法详解
问题定义:视频深度估计旨在从视频序列中推断每个像素的深度信息。现有方法,特别是生成模型,容易产生不真实的几何结构(几何幻觉)和尺度漂移,导致深度估计不准确。而判别模型虽然可以避免这些问题,但需要大量的标注数据进行训练,成本高昂,且泛化能力受限。因此,如何在缺乏大量标注数据的情况下,实现准确且稳定的视频深度估计是一个关键问题。
核心思路:DVD的核心思路是利用预训练的视频扩散模型中蕴含的强大几何先验知识,将其转化为一个确定性的深度回归器。通过巧妙地将扩散过程中的时间步长重新解释为结构锚点,平衡全局稳定性和局部细节,从而避免生成模型常见的幻觉问题。同时,通过引入潜在流形校正和全局仿射一致性,进一步提升深度估计的准确性和稳定性。
技术框架:DVD的整体框架包含以下几个主要模块:1) 预训练视频扩散模型:利用现有的预训练视频扩散模型作为基础,提取视频的潜在特征表示。2) 扩散时间步长重用:将扩散过程中的时间步长重新解释为结构锚点,用于指导深度回归过程,平衡全局稳定性和局部细节。3) 潜在流形校正(LMR):通过强制执行微分约束,恢复深度图的清晰边界和连贯运动,缓解回归引起的过度平滑。4) 全局仿射一致性:利用视频帧之间的仿射变换关系,约束窗口间的深度一致性,实现长视频的无缝推理。
关键创新:DVD最重要的技术创新在于将预训练的视频扩散模型转化为确定性的深度回归器。与传统的生成模型不同,DVD通过将扩散时间步长作为结构锚点,避免了随机性,从而实现了更稳定和准确的深度估计。此外,潜在流形校正和全局仿射一致性的引入,进一步提升了深度估计的质量和鲁棒性。
关键设计:在DVD中,扩散时间步长的选择至关重要,需要根据具体的视频内容进行调整,以平衡全局稳定性和局部细节。潜在流形校正通过最小化深度图的梯度差异来实现,可以使用不同的损失函数进行优化。全局仿射一致性则通过估计视频帧之间的仿射变换矩阵,并将其作为约束条件加入到深度回归过程中。具体的网络结构和参数设置需要根据实验结果进行调整。
📊 实验亮点
DVD在多个视频深度估计基准测试中取得了最先进的零样本性能,显著优于现有的方法。更重要的是,DVD仅使用少量任务特定数据(比领先的基线少163倍)就能够解锁视频基础模型中隐含的深刻几何先验,表明其具有强大的泛化能力和数据效率。
🎯 应用场景
DVD具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实、增强现实等领域。在自动驾驶中,准确的深度估计可以帮助车辆更好地感知周围环境,提高行驶安全性。在机器人导航中,深度信息可以用于构建三维地图,辅助机器人进行路径规划和避障。在虚拟现实和增强现实中,深度估计可以用于创建更逼真的沉浸式体验。
📄 摘要(原文)
Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.