StereoVGGT: A Training-Free Visual Geometry Transformer for Stereo Vision
作者: Ziyang Chen, Yansong Qu, You Shen, Xuan Cheng, Liujuan Cao
分类: cs.CV
发布日期: 2026-03-31
💡 一句话要点
提出StereoVGGT,一种免训练的立体视觉几何Transformer,显著提升立体匹配性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 立体视觉 立体匹配 视觉几何Transformer 免训练 特征调整 深度估计 相机姿态
📋 核心要点
- 现有立体视觉方法缺乏相机姿态的显式监督,导致几何信息不足,限制了性能。
- 利用在3D先验上预训练的VGGT,并提出免训练的特征调整流程StereoVGGT,缓解几何退化。
- StereoVGGT在KITTI数据集上取得了领先的立体匹配结果,验证了其有效性。
📝 摘要(中文)
随着3D设备的进步,立体匹配和立体转换等立体视觉任务已成为重要的研究前沿。现有的立体视觉骨干网络通常依赖于单目深度估计(MDE)模型或视觉基础模型(VFMs)。然而,这些模型主要是在没有显式相机姿态监督的情况下进行预训练的。由于几何知识对于立体视觉至关重要,缺乏显式的空间约束构成了现有架构的性能瓶颈。本文发现Visual Geometry Grounded Transformer (VGGT)作为一个在包含相机姿态等大量3D先验上预训练的基础模型,具有作为立体视觉骨干网络的潜力。但直接应用VGGT效果不佳,因为VGGT在特征提取过程中几何细节退化严重,这与双目立体视觉的需求相悖。为此,本文提出了专门为立体视觉量身定制的特征骨干网络StereoVGGT。通过利用冻结的VGGT并引入免训练的特征调整流程,缓解了几何退化,并利用了模型中嵌入的潜在相机标定知识。基于StereoVGGT的立体匹配网络在KITTI基准测试中取得了所有已发表方法中的第一名,验证了StereoVGGT作为立体视觉骨干网络的高效性。
🔬 方法详解
问题定义:现有立体视觉方法,特别是基于单目深度估计或视觉基础模型的方法,在预训练阶段缺乏对相机姿态的显式监督,导致模型在处理立体视觉任务时,几何信息的表达能力不足,影响了最终的性能。VGGT虽然包含了3D先验知识,但直接应用到立体视觉任务时,几何细节退化严重,无法满足双目立体视觉的需求。
核心思路:论文的核心思路是利用预训练的VGGT模型中蕴含的几何知识,并通过一个免训练的特征调整流程,来缓解VGGT在特征提取过程中产生的几何细节退化问题。通过这种方式,可以有效地将VGGT的几何先验知识迁移到立体视觉任务中,而无需重新训练整个模型。
技术框架:StereoVGGT的整体框架是基于VGGT的特征提取器,然后添加一个免训练的特征调整模块。具体流程如下:首先,将左右图像输入到冻结的VGGT中,提取特征。然后,通过提出的特征调整流程,对提取的特征进行几何细节的增强和校正。最后,将调整后的特征输入到现有的立体匹配网络中进行视差估计。
关键创新:论文的关键创新在于提出了一个免训练的特征调整流程,该流程能够有效地缓解VGGT在特征提取过程中产生的几何细节退化问题。这种免训练的设计使得StereoVGGT可以快速地应用到不同的立体匹配网络中,而无需进行额外的训练。
关键设计:关于特征调整流程的具体设计细节,论文中并没有详细说明。但是,可以推测该流程可能包含一些几何约束相关的操作,例如利用相机标定参数进行特征的校正,或者使用一些几何一致性损失来约束特征的学习。由于是免训练的,该流程可能包含一些手工设计的算子或者基于优化的方法。
🖼️ 关键图片
📊 实验亮点
StereoVGGT在KITTI立体匹配基准测试中取得了显著的成果,超越了所有已发表的方法,排名第一。这一结果表明,通过利用预训练的VGGT模型和免训练的特征调整流程,可以有效地提升立体匹配的性能。具体的性能数据和对比基线需要在论文中查找。
🎯 应用场景
StereoVGGT具有广泛的应用前景,包括自动驾驶、机器人导航、三维重建、虚拟现实和增强现实等领域。通过提供更准确的深度信息,可以提升这些应用在环境感知、路径规划和交互体验方面的性能。该研究为立体视觉领域提供了一种新的思路,有望推动相关技术的发展。
📄 摘要(原文)
Driven by the advancement of 3D devices, stereo vision tasks including stereo matching and stereo conversion have emerged as a critical research frontier. Contemporary stereo vision backbones typically rely on either monocular depth estimation (MDE) models or visual foundation models (VFMs). Crucially, these models are predominantly pretrained without explicit supervision of camera poses. Given that such geometric knowledge is indispensable for stereo vision, the absence of explicit spatial constraints constitutes a significant performance bottleneck for existing architectures. Recognizing that the Visual Geometry Grounded Transformer (VGGT) operates as a foundation model pretrained on extensive 3D priors, including camera poses, we investigate its potential as a robust backbone for stereo vision tasks. Nevertheless, empirical results indicate that its direct application to stereo vision yields suboptimal performance. We observe that VGGT suffers from a more significant degradation of geometric details during feature extraction. Such characteristics conflict with the requirements of binocular stereo vision, thereby constraining its efficacy for relative tasks. To bridge this gap, we propose StereoVGGT, a feature backbone specifically tailored for stereo vision. By leveraging the frozen VGGT and introducing a training-free feature adjustment pipeline, we mitigate geometric degradation and harness the latent camera calibration knowledge embedded within the model. StereoVGGT-based stereo matching network achieved the $1^{st}$ rank among all published methods on the KITTI benchmark, validating that StereoVGGT serves as a highly effective backbone for stereo vision.