VGGT-360: Geometry-Consistent Zero-Shot Panoramic Depth Estimation

📄 arXiv: 2603.18943v1 📥 PDF

作者: Jiayi Yuan, Haobo Jiang, De Wen Soh, Na Zhao

分类: cs.CV

发布日期: 2026-03-19


💡 一句话要点

VGGT-360:提出几何一致的零样本全景深度估计框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景深度估计 零样本学习 几何一致性 3D重建 多视角立体视觉

📋 核心要点

  1. 现有免训练全景深度估计方法缺乏几何一致性,导致深度估计不准确且视角不连贯。
  2. VGGT-360利用VGGT类模型的3D一致性,将全景深度估计转化为多视角3D重建和重投影问题。
  3. 实验表明,VGGT-360在多个数据集上超越了已训练和免训练的SOTA方法,实现了更准确的全景深度估计。

📝 摘要(中文)

本文提出了一种名为VGGT-360的全新免训练框架,用于零样本、几何一致的全景深度估计。与以往的视角无关的免训练方法不同,VGGT-360通过利用VGGT类基础模型的内在3D一致性,将任务重新定义为基于多视角重建3D模型的全景重投影,从而将碎片化的单视角推理统一为连贯的全景理解。为了实现稳健而准确的估计,VGGT-360集成了三个即插即用模块,形成了一个统一的全景到3D到深度的框架:(i)不确定性引导的自适应投影将全景图分割成透视视图,以弥合全景输入和VGGT的透视先验之间的领域差距。它估计基于梯度的不确定性,以便为几何结构较差的区域分配更密集的视图,从而为VGGT生成几何信息丰富的输入。(ii)结构显著性增强的注意力通过将结构感知的置信度注入到其注意力层中,增强了VGGT在3D重建过程中的鲁棒性,引导其关注几何上可靠的区域,并增强跨视图的一致性。(iii)相关性加权的3D模型校正通过使用注意力推断的相关性得分重新加权重叠点来细化重建的3D模型,为准确的全景重投影提供一致的几何基础。大量的实验表明,VGGT-360在多种分辨率以及不同的室内和室外数据集上,均优于已训练和免训练的最先进方法。

🔬 方法详解

问题定义:全景深度估计旨在从单个全景图像中推断场景的深度信息。现有的免训练方法通常独立处理每个视角,忽略了全景图像固有的几何一致性,导致深度估计结果不准确,且不同视角之间不连贯。这些方法难以处理复杂的场景结构和遮挡关系。

核心思路:VGGT-360的核心思路是将全景深度估计问题转化为一个基于多视角3D重建和重投影的问题。通过利用VGGT类基础模型(例如DINOv2)的内在3D一致性,将全景图像分解为多个透视视图,并利用这些视图重建一个3D模型。然后,通过将全景图像重投影到该3D模型上,得到最终的深度估计结果。这种方法能够有效地利用全景图像的几何信息,提高深度估计的准确性和一致性。

技术框架:VGGT-360包含三个主要模块:(1) 不确定性引导的自适应投影:将全景图分割成透视视图,并根据梯度不确定性调整视图密度。(2) 结构显著性增强的注意力:增强VGGT在3D重建中的鲁棒性,关注几何可靠区域。(3) 相关性加权的3D模型校正:使用注意力机制推断的相关性得分来细化3D模型。整体流程为:全景图 -> 自适应投影 -> 多视角图像 -> 结构增强VGGT 3D重建 -> 3D模型校正 -> 全景深度图。

关键创新:VGGT-360的关键创新在于其将全景深度估计问题与多视角3D重建问题联系起来,并利用VGGT类模型的3D一致性进行深度估计。与以往的视角无关的免训练方法相比,VGGT-360能够更好地利用全景图像的几何信息,从而提高深度估计的准确性和一致性。此外,三个即插即用模块的设计也保证了框架的鲁棒性和精度。

关键设计:(1) 不确定性估计:使用梯度信息估计每个像素的不确定性,并根据不确定性调整透视视图的密度。不确定性高的区域分配更密集的视图。(2) 结构显著性增强的注意力:在VGGT的注意力层中注入结构感知的置信度,引导模型关注几何可靠的区域。置信度通过边缘检测和角点检测等方法获得。(3) 相关性加权:使用注意力机制推断不同视角之间的相关性,并使用相关性得分对3D模型中的重叠点进行加权,从而提高3D模型的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGGT-360在Matterport3D、Structured3D等数据集上取得了显著的性能提升。例如,在Matterport3D数据集上,VGGT-360的深度估计精度优于SOTA免训练方法约10%-20%,并且在几何一致性指标上也取得了显著提升。此外,VGGT-360在室外数据集上的表现也优于其他方法,证明了其在不同场景下的泛化能力。

🎯 应用场景

VGGT-360在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于构建精确的3D地图,帮助机器人和自动驾驶车辆进行环境感知和路径规划。此外,它还可以用于创建沉浸式的VR/AR体验,例如全景漫游和虚拟导览。该研究的未来影响在于推动零样本学习和几何一致性在全景图像理解中的应用。

📄 摘要(原文)

This paper presents VGGT-360, a novel training-free framework for zero-shot, geometry-consistent panoramic depth estimation. Unlike prior view-independent training-free approaches, VGGT-360 reformulates the task as panoramic reprojection over multi-view reconstructed 3D models by leveraging the intrinsic 3D consistency of VGGT-like foundation models, thereby unifying fragmented per-view reasoning into a coherent panoramic understanding. To achieve robust and accurate estimation, VGGT-360 integrates three plug-and-play modules that form a unified panorama-to-3D-to-depth framework: (i) Uncertainty-guided adaptive projection slices panoramas into perspective views to bridge the domain gap between panoramic inputs and VGGT's perspective prior. It estimates gradient-based uncertainty to allocate denser views to geometry-poor regions, yielding geometry-informative inputs for VGGT. (ii) Structure-saliency enhanced attention strengthens VGGT's robustness during 3D reconstruction by injecting structure-aware confidence into its attention layers, guiding focus toward geometrically reliable regions and enhancing cross-view coherence. (iii) Correlation-weighted 3D model correction refines the reconstructed 3D model by reweighting overlapping points using attention-inferred correlation scores, providing a consistent geometric basis for accurate panoramic reprojection. Extensive experiments show that VGGT-360 outperforms both trained and training-free state-of-the-art methods across multiple resolutions and diverse indoor and outdoor datasets.