Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

📄 arXiv: 2512.16913v1 📥 PDF

作者: Xin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

分类: cs.CV

发布日期: 2025-12-18

备注: Project Page: https://insta360-research-team.github.io/DAP_website/

🔗 代码/项目: PROJECT_PAGE | PROJECT_PAGE


💡 一句话要点

提出全景深度估计基础模型DAP,提升跨场景距离的泛化能力与几何一致性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景深度估计 深度学习 基础模型 数据闭环 几何一致性 领域泛化 DINOv3

📋 核心要点

  1. 现有全景深度估计方法在处理不同场景距离和领域泛化性方面存在不足,尤其是在真实场景中。
  2. 论文提出一种数据闭环范式,结合合成数据、真实数据和伪标签技术,构建大规模全景深度数据集。
  3. 采用DINOv3-Large作为骨干,并引入范围掩码头、清晰度优化和几何优化,提升模型鲁棒性和几何一致性。

📝 摘要(中文)

本文提出了一种全景度量深度基础模型,该模型能够泛化到各种场景距离。我们探索了一种数据闭环范式,从数据构建和框架设计的角度出发。我们通过结合公共数据集、来自UE5模拟器的高质量合成数据、文本到图像模型以及来自网络的真实全景图像,收集了一个大规模数据集。为了减少室内/室外和合成/真实数据之间的领域差距,我们引入了一个三阶段伪标签生成流程,为未标记图像生成可靠的真值。在模型方面,我们采用DINOv3-Large作为骨干网络,因为它具有强大的预训练泛化能力,并引入了一个即插即用的范围掩码头、以清晰度为中心的优化和以几何为中心的优化,以提高对不同距离的鲁棒性并加强跨视图的几何一致性。在多个基准测试(例如,Stanford2D3D、Matterport3D和Deep360)上的实验表明,该模型具有强大的性能和零样本泛化能力,尤其是在各种真实场景中具有鲁棒和稳定的度量预测。

🔬 方法详解

问题定义:全景深度估计旨在从单张全景图像中预测场景的深度信息。现有方法在处理不同场景距离(近距离、远距离)以及室内外场景的泛化能力上存在挑战。此外,合成数据和真实数据之间的领域差异也会影响模型的性能。现有方法难以在真实场景中获得鲁棒且精确的深度估计结果。

核心思路:论文的核心思路是构建一个大规模、多样化的全景深度数据集,并设计一个能够有效利用这些数据的深度估计模型。通过数据闭环的方式,不断迭代优化数据集和模型,从而提升模型的泛化能力和鲁棒性。具体来说,利用合成数据、真实数据以及伪标签技术来扩充数据集,并采用预训练的DINOv3-Large作为骨干网络,结合特定的优化策略来提升模型性能。

技术框架:整体框架包含数据构建和模型训练两个主要部分。数据构建阶段,首先收集公共数据集、利用UE5生成合成数据、使用文本到图像模型生成数据,并从网络抓取真实全景图像。然后,通过一个三阶段的伪标签生成流程,为未标记图像生成可靠的伪标签。模型训练阶段,采用DINOv3-Large作为骨干网络,并添加一个即插即用的范围掩码头,用于区分不同距离的场景。此外,还采用了清晰度为中心的优化和几何为中心的优化,以提升模型的鲁棒性和几何一致性。

关键创新:论文的关键创新在于数据闭环范式的应用以及针对全景深度估计的特定优化策略。数据闭环通过不断迭代优化数据集和模型,提升了模型的泛化能力。范围掩码头、清晰度优化和几何优化则针对全景深度估计的特点进行了定制,有效提升了模型的性能。与现有方法相比,该方法能够更好地处理不同场景距离和领域差异,从而在真实场景中获得更鲁棒和精确的深度估计结果。

关键设计:范围掩码头的设计旨在区分不同距离的场景,从而提升模型对不同距离的适应能力。清晰度优化通过关注图像的清晰度来提升模型的鲁棒性。几何优化则通过约束相邻像素之间的深度关系来加强几何一致性。伪标签生成流程包含三个阶段:首先使用现有的深度估计模型生成初始伪标签,然后使用几何约束对伪标签进行优化,最后使用人工标注对伪标签进行验证和修正。损失函数包括深度损失、梯度损失和几何一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在Stanford2D3D、Matterport3D和Deep360等多个基准测试上取得了优异的性能,并展现出强大的零样本泛化能力。尤其是在真实场景中,该方法能够生成鲁棒且稳定的度量深度预测,显著优于现有方法。项目主页提供了更多实验细节和可视化结果。

🎯 应用场景

该研究成果可广泛应用于机器人导航、虚拟现实、增强现实、自动驾驶等领域。高质量的全景深度估计能够为机器人提供更准确的环境感知,从而实现更安全的导航。在VR/AR领域,可以用于构建更逼真的虚拟场景和增强现实体验。在自动驾驶领域,可以用于提升车辆对周围环境的理解能力,从而提高驾驶安全性。

📄 摘要(原文)

In this work, we present a panoramic metric depth foundation model that generalizes across diverse scene distances. We explore a data-in-the-loop paradigm from the view of both data construction and framework design. We collect a large-scale dataset by combining public datasets, high-quality synthetic data from our UE5 simulator and text-to-image models, and real panoramic images from the web. To reduce domain gaps between indoor/outdoor and synthetic/real data, we introduce a three-stage pseudo-label curation pipeline to generate reliable ground truth for unlabeled images. For the model, we adopt DINOv3-Large as the backbone for its strong pre-trained generalization, and introduce a plug-and-play range mask head, sharpness-centric optimization, and geometry-centric optimization to improve robustness to varying distances and enforce geometric consistency across views. Experiments on multiple benchmarks (e.g., Stanford2D3D, Matterport3D, and Deep360) demonstrate strong performance and zero-shot generalization, with particularly robust and stable metric predictions in diverse real-world scenes. The project page can be found at: \href{https://insta360-research-team.github.io/DAP_website/} {https://insta360-research-team.github.io/DAP_website/}