Depth Anything 3: Recovering the Visual Space from Any Views
作者: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
分类: cs.CV
发布日期: 2025-11-13
备注: https://depth-anything-3.github.io/
💡 一句话要点
Depth Anything 3:从任意视角恢复空间几何信息,无需架构特化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 深度估计 视觉几何 Transformer 自监督学习 多视角重建
📋 核心要点
- 现有方法在从多视角图像中恢复几何信息时,通常需要复杂的网络结构和多任务学习,增加了模型复杂度和训练难度。
- DA3的核心思想是采用极简建模方式,使用单一的Transformer骨干网络和深度射线预测目标,避免了架构特化和复杂的多任务学习。
- DA3在新的视觉几何基准上取得了显著的性能提升,在相机位姿和几何精度方面均超越了现有SOTA方法,并在单目深度估计上优于DA2。
📝 摘要(中文)
本文提出了Depth Anything 3 (DA3),一个能够从任意数量的视觉输入中预测空间一致几何信息的模型,无论是否已知相机位姿。DA3追求最小化建模,并提出了两个关键见解:一个简单的Transformer(例如,vanilla DINO编码器)足以作为骨干网络,无需架构特化;以及单一的深度射线预测目标消除了复杂的多任务学习的需要。通过教师-学生训练范式,该模型实现了与Depth Anything 2 (DA2)相当的细节和泛化能力。我们建立了一个新的视觉几何基准,涵盖相机位姿估计、任意视角几何和视觉渲染。在该基准上,DA3在所有任务上都达到了新的state-of-the-art,在相机位姿精度方面平均超过先前的SOTA VGGT 44.3%,在几何精度方面超过25.1%。此外,它在单目深度估计方面优于DA2。所有模型都仅在公共学术数据集上进行训练。
🔬 方法详解
问题定义:论文旨在解决从任意数量的视觉输入中恢复空间一致的几何信息的问题,无论是否已知相机位姿。现有方法通常依赖于复杂的网络架构和多任务学习,这增加了模型的复杂性,并可能导致训练不稳定和泛化能力下降。此外,针对特定任务设计的架构可能限制了模型在不同场景下的适应性。
核心思路:DA3的核心思路是采用极简建模方式,即使用一个简单的Transformer骨干网络(如vanilla DINO编码器)和单一的深度射线预测目标。这种设计旨在减少模型的复杂性,提高训练效率,并增强模型的泛化能力。通过避免架构特化和复杂的多任务学习,DA3能够更有效地学习视觉空间中的几何信息。
技术框架:DA3的整体框架包括一个Transformer编码器和一个深度预测模块。Transformer编码器负责提取输入图像的特征,深度预测模块则根据这些特征预测每个像素的深度值。模型采用教师-学生训练范式,其中教师模型提供高质量的深度信息,学生模型则学习模仿教师模型的输出。
关键创新:DA3最重要的技术创新点在于其极简建模方式。与现有方法相比,DA3避免了复杂的网络架构和多任务学习,而是采用了一个简单的Transformer骨干网络和单一的深度射线预测目标。这种设计不仅降低了模型的复杂性,还提高了训练效率和泛化能力。
关键设计:DA3的关键设计包括:1) 使用vanilla DINO编码器作为骨干网络,无需任何修改;2) 采用深度射线预测作为单一的学习目标,避免了多任务学习中的任务冲突;3) 使用教师-学生训练范式,利用教师模型提供高质量的深度信息,指导学生模型的学习。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
📊 实验亮点
DA3在新的视觉几何基准上取得了显著的性能提升,在相机位姿精度方面平均超过先前的SOTA VGGT 44.3%,在几何精度方面超过25.1%。此外,DA3在单目深度估计方面也优于DA2,证明了其在不同任务上的泛化能力。所有模型都仅在公共学术数据集上进行训练,进一步验证了其在实际应用中的可行性。
🎯 应用场景
DA3具有广泛的应用前景,包括机器人导航、自动驾驶、增强现实、虚拟现实等领域。它可以用于构建三维场景地图、进行物体识别和跟踪、以及实现逼真的视觉渲染。通过从任意视角恢复空间几何信息,DA3可以为这些应用提供更准确、更可靠的环境感知能力,从而提高系统的性能和安全性。
📄 摘要(原文)
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.