AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis
作者: Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
分类: cs.CV
发布日期: 2025-04-17
备注: Appearing in CVPR 2025. Project page: https://aerial-megadepth.github.io
💡 一句话要点
AerialMegaDepth:学习空中-地面重建与视角合成,解决视角差异过大问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 空中地面重建 视角合成 几何重建 领域自适应 混合数据集
📋 核心要点
- 现有方法难以处理空中和地面图像之间极端视角差异下的几何重建任务。
- 提出结合伪合成渲染(Google Earth)和真实众包图像(MegaDepth)的混合数据集,弥合领域差距。
- 通过微调现有算法,在相机姿态估计和新视角合成等任务上取得了显著提升。
📝 摘要(中文)
本文探讨了从混合的地面和空中视角捕获的图像的几何重建任务。目前最先进的基于学习的方法无法处理空中-地面图像对之间极端的视角变化。我们认为,缺乏高质量、共同配准的空中-地面数据集是导致这种失败的关键原因。精确地组装此类数据非常困难,因为它难以大规模重建。为了克服这一挑战,我们提出了一个可扩展的框架,将来自3D城市范围网格(例如,Google Earth)的伪合成渲染与真实的、地面众包图像(例如,MegaDepth)相结合。伪合成数据模拟了广泛的空中视角,而真实的众包图像有助于提高地面图像的视觉保真度,因为基于网格的渲染缺乏足够的细节,从而有效地弥合了真实图像和伪合成渲染之间的领域差距。使用这种混合数据集,我们微调了几种最先进的算法,并在真实的零样本空中-地面任务上取得了显著的改进。例如,我们观察到,基线DUSt3R在相机旋转误差5度以内定位的空中-地面对少于5%,而使用我们的数据进行微调后,准确率提高到近56%,解决了处理大视角变化的主要失败点。除了相机估计和场景重建之外,我们的数据集还提高了在具有挑战性的空中-地面场景中新视角合成等下游任务的性能,证明了我们的方法在实际应用中的实用价值。
🔬 方法详解
问题定义:论文旨在解决空中和地面图像混合场景下的几何重建问题。现有基于学习的方法在处理这种场景时,由于空中和地面视角差异巨大,导致性能显著下降。主要痛点在于缺乏高质量、配准良好的空中-地面数据集,难以训练出鲁棒的模型。
核心思路:论文的核心思路是利用伪合成数据和真实数据相结合的方式来构建训练数据集。具体来说,使用3D城市模型(如Google Earth)生成空中视角的伪合成图像,并结合MegaDepth等数据集中的真实地面图像。这样既能覆盖广泛的视角范围,又能保证地面图像的视觉质量。
技术框架:整体框架包含两个主要部分:数据生成和模型训练。数据生成阶段,从3D城市模型中渲染不同空中视角的图像,并与真实地面图像进行配准。模型训练阶段,使用生成的混合数据集对现有的几何重建算法进行微调。
关键创新:关键创新在于混合数据集的构建方法。通过结合伪合成数据和真实数据,有效地弥合了空中和地面图像之间的领域差距,解决了现有方法在处理极端视角变化时的不足。
关键设计:在数据生成方面,需要仔细选择渲染参数,以保证伪合成图像的质量和真实感。在模型训练方面,可以使用不同的损失函数来约束模型的输出,例如,可以使用光度一致性损失来保证重建结果的视觉一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用该论文提出的混合数据集进行微调后,DUSt3R算法在空中-地面图像对的相机姿态估计精度上取得了显著提升。具体来说,在相机旋转误差5度以内,DUSt3R的定位准确率从低于5%提高到近56%,解决了大视角变化下的主要问题。此外,该数据集还提升了新视角合成等下游任务的性能。
🎯 应用场景
该研究成果可应用于城市规划、自动驾驶、增强现实等领域。例如,可以利用该技术重建城市的三维模型,为城市规划提供参考;可以帮助自动驾驶系统更好地理解周围环境,提高安全性;可以为增强现实应用提供更逼真的场景。
📄 摘要(原文)
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.