AirZoo: A Unified Large-Scale Dataset for Grounding Aerial Geometric 3D Vision

📄 arXiv: 2604.26567v1 📥 PDF

作者: Xiaoya Cheng, Rouwan Wu, Xinyi Liu, Zeyu Cui, Yan Liu, Na Zhao, Yu Liu, Maojun Zhang, Shen Yan

分类: cs.CV

发布日期: 2026-04-29


💡 一句话要点

AirZoo:用于空中几何3D视觉的大规模统一数据集与基准

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 空中几何3D视觉 大规模数据集 无人机 三维重建 跨视角匹配 图像检索 深度估计

📋 核心要点

  1. 现有3D视觉基准数据集主要面向地面或以物体为中心,难以应对无人机视角下复杂的视角变换和多样的环境条件。
  2. AirZoo利用大规模摄影测量3D网格,通过可定制的无人机轨迹和环境配置,生成多样化的空中场景数据。
  3. 实验表明,在AirZoo上预训练的模型在空中图像检索、跨视角匹配和3D重建等任务上均取得了显著的性能提升。

📝 摘要(中文)

针对数据驱动的3D视觉快速发展,但空中几何3D视觉因缺乏大规模、高保真训练数据而面临巨大挑战,本文提出了AirZoo,一个用于空中几何3D视觉的大规模统一数据集和基准。AirZoo具有三个吸引人的特性:1) 可扩展的生成流程:利用免费的、世界尺度的摄影测量3D网格,渲染具有可定制无人机飞行轨迹和可配置天气/光照的大量户外环境。2) 全面的场景多样性:提供迄今为止最广泛的区域类型覆盖(跨越22个国家的378个区域),系统地涵盖了高度结构化的城市景观和复杂的非结构化自然环境。3) 丰富的几何标注:每帧提供同步的像素级度量深度和精确的6自由度地理参考姿态,这对于几何感知学习至关重要。通过空中图像检索、跨视角匹配和多视角3D重建三个严格的评估方向,证明AirZoo可以作为一个强大的预训练引擎。在公共和新收集的真实世界基准上的大量实验表明,在AirZoo上进行微调可以为SoTA模型(例如,MegaLoc、RoMa、VGGT和Depth Anything 3)带来显著的性能提升,从而为空中空间智能建立新的性能上限。

🔬 方法详解

问题定义:论文旨在解决空中几何3D视觉领域缺乏大规模、高质量训练数据的问题。现有数据集主要集中于地面视角或物体中心视角,无法充分覆盖无人机视角下的复杂场景和视角变换,限制了相关算法的性能提升。

核心思路:论文的核心思路是利用现有的、世界尺度的摄影测量3D网格数据,通过程序化渲染的方式生成大规模的空中场景数据集。这种方法可以有效地降低数据采集成本,并能够灵活地控制场景的多样性和标注的精度。

技术框架:AirZoo数据集的生成流程主要包括以下几个阶段:1) 选择合适的3D网格数据源;2) 设计无人机飞行轨迹,包括飞行高度、速度、视角等参数;3) 配置环境参数,如天气、光照等;4) 使用渲染引擎生成图像,并同步生成像素级的深度图和6自由度姿态信息;5) 对生成的数据进行清洗和验证。

关键创新:AirZoo的关键创新在于其可扩展的数据生成流程和全面的场景多样性。通过程序化渲染,可以高效地生成大规模的、具有精确标注的空中场景数据。同时,AirZoo覆盖了广泛的地理区域和环境条件,能够更好地模拟真实世界的复杂性。

关键设计:AirZoo的关键设计包括:1) 使用真实世界的3D网格数据,保证场景的真实性;2) 设计多样化的无人机飞行轨迹,模拟不同的视角和运动模式;3) 配置可变的天气和光照条件,增加场景的多样性;4) 提供像素级的深度图和6自由度姿态信息,方便算法进行几何感知学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在AirZoo上预训练的模型在空中图像检索、跨视角匹配和3D重建等任务上均取得了显著的性能提升。例如,在真实世界数据集上进行微调后,MegaLoc、RoMa、VGGT和Depth Anything 3等模型的性能均得到了大幅提升,为空中空间智能建立了新的性能上限。

🎯 应用场景

AirZoo数据集可广泛应用于无人机导航、视觉定位、三维重建、城市建模等领域。高质量的训练数据能够显著提升相关算法的性能和鲁棒性,促进空中空间智能的发展,为智慧城市、环境监测、灾害救援等应用提供技术支撑。

📄 摘要(原文)

Despite the rapid progress in data-driven 3D vision, aerial geometric 3D vision remains a formidable challenge due to the severe scarcity of large-scale, high-fidelity training data. Existing benchmarks, predominantly biased toward ground-level or object-centric views, do not account for complex viewpoint transformations and diverse environmental conditions in UAV-based sensing. To bridge this critical gap, we propose AirZoo, a unified large-scale dataset and benchmark for grounding aerial geometric 3D vision. AirZoo possesses three appealing properties: 1) Scalable Generation Pipeline: Leveraging freely available, world-scale photogrammetric 3D meshes, it renders vast outdoor environments with customizable UAV flight trajectories and configurable weather/illumination. 2) Comprehensive Scene Diversity: It provides the most extensive coverage of region types to date (spanning 378 regions across 22 countries), systematically encompassing both highly structured urban landscapes and complex unstructured natural environments. 3) Rich Geometric Annotations: Each frame provides synchronized, pixel-level metric depth and precise 6-DoF geo-referenced poses, essential for geometry-aware learning. Through three rigorous evaluation tracks -- aerial image retrieval, cross-view matching, and multi-view 3D reconstruction -- we demonstrate that AirZoo serves as a powerful pre-training engine. Extensive experiments on both public and newly collected real-world benchmarks reveal that fine-tuning on AirZoo yields substantial performance gains for SoTA models (e.g., MegaLoc, RoMa, VGGT, and Depth Anything 3), establishing a new performance upper bound for aerial spatial intelligence.