An Evaluation of DUSt3R/MASt3R/VGGT 3D Reconstruction on Photogrammetric Aerial Blocks

📄 arXiv: 2507.14798v2 📥 PDF

作者: Xinyi Wu, Steven Landgraf, Markus Ulrich, Rongjun Qin

分类: cs.CV

发布日期: 2025-07-20 (更新: 2025-10-24)

备注: 23 pages, 7 figures, this manuscript has been submitted to Geo-spatial Information Science for consideration


💡 一句话要点

评估DUSt3R/MASt3R/VGGT在摄影测量航测影像块三维重建中的性能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 摄影测量 航测影像 深度学习 Transformer DUSt3R MASt3R VGGT

📋 核心要点

  1. 现有三维重建方法在处理极低图像重叠、立体遮挡和无纹理区域的航测影像时存在挑战。
  2. 论文评估了DUSt3R/MASt3R/VGGT在稀疏航测影像三维重建中的潜力,探索其加速重建的可能性。
  3. 实验表明,这些方法在稀疏图像集上能准确重建稠密点云,VGGT在计算效率和姿态估计上更具优势。

📝 摘要(中文)

本文评估了最新的三维计算机视觉算法,特别是Dense and Unconstrained Stereo 3D Reconstruction (DUSt3R)、Matching and Stereo 3D Reconstruction (MASt3R)以及Visual Geometry Grounded Transformer (VGGT)在摄影测量航测影像块上的性能。这些模型因其处理稀疏、无序图像集的能力而备受关注。本文在UseGeo数据集的航测影像块上,对预训练的DUSt3R/MASt3R/VGGT模型进行了姿态估计和稠密三维重建的综合评估。结果表明,这些方法能够从非常稀疏的图像集(少于10张图像,分辨率高达518像素)中准确重建稠密点云,与COLMAP相比,完整性提高了高达+50%。VGGT还表现出更高的计算效率、可扩展性和更可靠的相机姿态估计。然而,所有方法在高分辨率图像和大型数据集上都存在局限性,因为姿态可靠性随着图像数量和几何复杂性的增加而下降。这些发现表明,基于Transformer的方法不能完全取代传统的SfM和MVS,但有望作为补充方法,尤其是在具有挑战性的、低分辨率和稀疏场景中。

🔬 方法详解

问题定义:论文旨在评估DUSt3R、MASt3R和VGGT这三种基于深度学习的三维重建方法在处理摄影测量航测影像块时的性能。现有方法,如COLMAP,在图像重叠度低、纹理信息不足的情况下表现不佳,重建结果的完整性和准确性受到影响。

核心思路:论文的核心思路是利用预训练的DUSt3R、MASt3R和VGGT模型,直接从稀疏的航测影像集中进行三维重建,无需像传统方法那样依赖密集的图像匹配和几何约束。这种方法旨在克服传统方法在处理低重叠度和无纹理区域时的局限性。

技术框架:整体流程包括:(1) 数据准备:使用UseGeo数据集的航测影像块;(2) 模型应用:直接使用预训练的DUSt3R、MASt3R和VGGT模型进行姿态估计和稠密三维重建;(3) 结果评估:将重建结果与COLMAP进行比较,评估重建的完整性、准确性和计算效率。

关键创新:论文的关键创新在于首次系统性地评估了基于Transformer的DUSt3R、MASt3R和VGGT模型在摄影测量航测影像块三维重建中的潜力。与传统方法相比,这些模型能够处理更稀疏的图像集,并在一定程度上克服了纹理信息不足的问题。

关键设计:论文直接使用了预训练的DUSt3R、MASt3R和VGGT模型,没有进行额外的训练或微调。实验中,图像分辨率被限制在518像素以内,以适应模型的计算资源限制。评估指标包括重建点云的完整性和准确性,以及相机姿态估计的可靠性。

📊 实验亮点

实验结果表明,DUSt3R/MASt3R/VGGT能够从非常稀疏的图像集(少于10张图像)中重建稠密点云,与COLMAP相比,完整性提高了高达+50%。VGGT在计算效率和相机姿态估计方面表现更优。这些结果验证了Transformer模型在稀疏三维重建中的潜力。

🎯 应用场景

该研究成果可应用于快速三维城市建模、灾害评估、环境监测等领域。通过利用稀疏航测影像,可以降低数据采集成本,提高重建效率,尤其是在传统方法难以应用的场景中具有重要价值。未来,结合高分辨率影像和更先进的深度学习技术,有望进一步提升三维重建的精度和效率。

📄 摘要(原文)

State-of-the-art 3D computer vision algorithms continue to advance in handling sparse, unordered image sets. Recently developed foundational models for 3D reconstruction, such as Dense and Unconstrained Stereo 3D Reconstruction (DUSt3R), Matching and Stereo 3D Reconstruction (MASt3R), and Visual Geometry Grounded Transformer (VGGT), have attracted attention due to their ability to handle very sparse image overlaps. Evaluating DUSt3R/MASt3R/VGGT on typical aerial images matters, as these models may handle extremely low image overlaps, stereo occlusions, and textureless regions. For redundant collections, they can accelerate 3D reconstruction by using extremely sparsified image sets. Despite tests on various computer vision benchmarks, their potential on photogrammetric aerial blocks remains unexplored. This paper conducts a comprehensive evaluation of the pre-trained DUSt3R/MASt3R/VGGT models on the aerial blocks of the UseGeo dataset for pose estimation and dense 3D reconstruction. Results show these methods can accurately reconstruct dense point clouds from very sparse image sets (fewer than 10 images, up to 518 pixels resolution), with completeness gains up to +50% over COLMAP. VGGT also demonstrates higher computational efficiency, scalability, and more reliable camera pose estimation. However, all exhibit limitations with high-resolution images and large sets, as pose reliability declines with more images and geometric complexity. These findings suggest transformer-based methods cannot fully replace traditional SfM and MVS, but offer promise as complementary approaches, especially in challenging, low-resolution, and sparse scenarios.