UAVFF3D: A Geometry-Aware Benchmark for Feed-Forward UAV 3D Reconstruction

📄 arXiv: 2605.17942v1 📥 PDF

作者: Xiang Yang, Yongli Wang, HaiFeng Li, Yunsheng Zhang

分类: cs.CV

发布日期: 2026-05-18

备注: 19 pages, 16 figures


💡 一句话要点

提出UAVFF3D无人机三维重建几何感知基准,提升前馈网络在无人机图像上的性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 无人机图像 三维重建 前馈网络 几何感知 领域自适应

📋 核心要点

  1. 现有前馈三维重建方法在通用场景表现良好,但在无人机图像上性能未充分探索,面临独特的几何结构和视角变化。
  2. 构建UAVFF3D基准,包含真实和合成无人机图像,并设计诊断测试集,用于分析模型在无人机特定几何歧义下的表现。
  3. 提出联合评估相机几何估计和重建精度的协议,实验表明领域自适应和相机先验知识能显著提升无人机图像三维重建性能。

📝 摘要(中文)

本文提出了UAVFF3D,一个几何感知的无人机三维重建基准,包含超过17万张真实无人机图像和37万张高质量合成图像。该基准还包括一个具有挑战性的诊断测试子集,用于分析模型在无人机特定几何歧义下的行为。基于UAVFF3D,本文提出了一种联合评估相机几何估计和重建精度的评估协议,解决了现有评估依赖于单独对齐的局限性。在四个代表性的前馈重建模型上的实验表明,无人机领域的自适应显著提高了性能,Ray Error降低高达84.2%,Pose ATE降低高达76.0%,Chamfer Distance降低高达41.1%。进一步的分析表明,领域自适应减轻了倾斜视角场景中旋转估计的退化,并提高了水平视场/高度歧义下的鲁棒性。结合相机先验知识进一步增强了无人机特定采集几何下的重建性能。

🔬 方法详解

问题定义:现有前馈三维重建方法在通用场景下表现良好,但直接应用于无人机图像时,由于无人机图像特有的采集几何结构(例如,大视角变化、水平视场与飞行高度的歧义性)而面临性能瓶颈。现有的评估方法通常将相机几何估计和重建精度分开评估,无法全面反映重建效果。

核心思路:本文的核心思路是构建一个专门针对无人机图像三维重建的几何感知基准数据集UAVFF3D,并在此基础上设计新的评估协议,同时探索领域自适应和相机先验知识对提升无人机图像三维重建性能的影响。通过领域自适应,使模型更好地适应无人机图像的特征,利用相机先验知识来约束重建过程,从而提高重建精度和鲁棒性。

技术框架:UAVFF3D基准数据集包含真实无人机图像和合成无人机图像两部分,并设计了诊断测试集来评估模型在特定几何歧义下的表现。评估协议联合评估相机几何估计和重建精度,避免了单独对齐带来的误差累积。研究人员使用现有的前馈三维重建模型,并在UAVFF3D上进行训练和测试,验证领域自适应和相机先验知识的有效性。

关键创新:该论文的关键创新在于构建了一个专门针对无人机图像三维重建的几何感知基准数据集UAVFF3D,并提出了一个联合评估相机几何估计和重建精度的评估协议。与现有方法相比,UAVFF3D更贴近实际无人机应用场景,评估协议更全面地反映了重建效果。

关键设计:UAVFF3D数据集包含超过17万张真实无人机图像和37万张高质量合成图像,涵盖了多种场景和视角。诊断测试集专门设计用于评估模型在水平视场/高度歧义等无人机特有几何歧义下的表现。评估协议使用Ray Error、Pose ATE和Chamfer Distance等指标来综合评估相机几何估计和重建精度。领域自适应采用常见的迁移学习方法,相机先验知识则通过在损失函数中加入相机参数的约束项来实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在UAVFF3D基准上,通过领域自适应,前馈三维重建模型在无人机图像上的性能得到显著提升,Ray Error降低高达84.2%,Pose ATE降低高达76.0%,Chamfer Distance降低高达41.1%。此外,实验还验证了相机先验知识能够进一步提升重建性能,尤其是在无人机特有的几何结构下。

🎯 应用场景

该研究成果可广泛应用于无人机遥感、城市建模、基础设施巡检、灾害评估等领域。通过提升无人机图像三维重建的精度和鲁棒性,可以为这些应用提供更可靠的数据支持,例如,可以更精确地生成城市三维模型,更有效地进行桥梁、电力线路等基础设施的巡检,以及更快速地评估灾害损失。

📄 摘要(原文)

Feed-forward 3D reconstruction has recently demonstrated strong generalization across diverse scenes, yet its performance in UAV imagery remains underexplored due to distinctive acquisition geometries, large viewpoint variations, and ambiguity between horizontal field of view and flight height. We present UAVFF3D, a geometry-aware benchmark for feed-forward UAV 3D reconstruction, comprising over 170K real UAV images and more than 370K high-quality synthetic images. The benchmark also includes a challenging diagnostic test subset designed to analyze model behavior under UAV-specific geometric ambiguities.Building on UAVFF3D, we propose an evaluation protocol that jointly assesses camera-geometry estimation and reconstruction accuracy, addressing limitations of existing evaluations that rely on separate alignments. Experiments on four representative feed-forward reconstruction models show that UAV-domain adaptation substantially improves performance, reducing Ray Error by up to 84.2%, Pose ATE by up to 76.0%, and Chamfer Distance by up to 41.1%. Further analysis reveals that domain adaptation mitigates rotation-estimation degradation in oblique-view scenes and improves robustness under horizontal-field-of-view/height ambiguity. Incorporating camera priors further enhances reconstruction performance under UAV-specific acquisition geometries.