DroneSplat: 3D Gaussian Splatting for Robust 3D Reconstruction from In-the-Wild Drone Imagery

📄 arXiv: 2503.16964v1 📥 PDF

作者: Jiadong Tang, Yu Gao, Dianyi Yang, Liqi Yan, Yufeng Yue, Yi Yang

分类: cs.CV

发布日期: 2025-03-21


💡 一句话要点

DroneSplat:利用3D高斯溅射实现无人机野外图像的鲁棒三维重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 无人机图像 三维重建 3D高斯溅射 动态场景 多视角立体 体素引导 辐射场

📋 核心要点

  1. 现有辐射场方法难以处理无人机在野外拍摄时遇到的动态干扰物和视角有限问题,导致重建质量下降。
  2. DroneSplat通过自适应掩膜阈值消除动态干扰,并利用多视角立体预测和体素引导优化增强3D高斯溅射,提升重建质量。
  3. 实验结果表明,DroneSplat在无人机野外图像重建任务中,显著优于3DGS和NeRF等基线方法。

📝 摘要(中文)

本文提出DroneSplat,一个为无人机野外图像鲁棒三维重建设计的新框架。针对野外环境中的动态干扰物挑战了辐射场的静态场景假设,以及有限视角约束阻碍了底层场景几何结构的精确捕捉的问题,DroneSplat通过整合局部-全局分割启发式方法与统计方法,自适应地调整掩膜阈值,从而精确识别和消除静态场景中的动态干扰物。同时,通过多视角立体预测和体素引导的优化策略增强了3D高斯溅射,支持在有限视角约束下实现高质量渲染。论文还提供了一个无人机捕获的3D重建数据集,包含动态和静态场景,并通过大量实验证明DroneSplat在处理野外无人机图像方面优于3DGS和NeRF基线。

🔬 方法详解

问题定义:无人机在野外环境中进行三维重建时,面临两个主要问题。一是场景中存在动态干扰物(如行人、车辆、动物等),这些干扰物违反了传统辐射场方法所依赖的静态场景假设,导致重建结果出现伪影。二是无人机视角有限,难以完整捕捉场景的几何信息,影响重建的准确性和完整性。现有方法难以有效解决这两个问题,导致重建质量不佳。

核心思路:DroneSplat的核心思路是首先通过自适应的掩膜方法去除动态干扰物,然后利用多视角立体信息和体素引导的优化策略来增强3D高斯溅射,从而在有限视角下实现高质量的三维重建。这种方法结合了分割、几何和渲染的优势,能够有效地处理野外无人机图像中的挑战。

技术框架:DroneSplat框架主要包含以下几个阶段:1) 动态干扰物检测与去除:利用局部-全局分割启发式方法和统计方法,自适应地调整掩膜阈值,从而精确识别和消除静态场景中的动态干扰物。2) 多视角立体预测:利用多视角图像进行深度预测,为3D高斯溅射提供更准确的几何先验。3) 体素引导的优化:利用体素表示对3D高斯溅射进行约束和引导,提高重建的准确性和鲁棒性。4) 3D高斯溅射渲染:利用优化后的3D高斯参数进行高质量的场景渲染。

关键创新:DroneSplat的关键创新在于:1) 提出了自适应的掩膜方法,能够有效地去除野外场景中的动态干扰物。2) 结合了多视角立体预测和体素引导的优化策略,增强了3D高斯溅射在有限视角下的重建能力。3) 提供了一个新的无人机捕获的3D重建数据集,包含动态和静态场景,为该领域的研究提供了benchmark。

关键设计:在动态干扰物检测中,采用了局部-全局分割启发式方法,结合图像的颜色、纹理等特征进行分割,并利用统计方法对分割结果进行过滤,从而得到更准确的掩膜。在体素引导的优化中,利用体素的占用概率作为正则化项,约束3D高斯参数的优化过程。损失函数包括渲染损失、深度损失和正则化损失等,通过联合优化这些损失函数,实现高质量的三维重建。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DroneSplat在无人机野外图像重建任务中,显著优于3DGS和NeRF等基线方法。在自建数据集上,DroneSplat在PSNR、SSIM和LPIPS等指标上均取得了显著提升,证明了其在处理动态干扰物和有限视角问题上的有效性。例如,在某个包含大量动态行人的场景中,DroneSplat的PSNR比3DGS提高了3dB以上。

🎯 应用场景

DroneSplat在城市建模、环境监测、灾害评估、农业巡检等领域具有广泛的应用前景。该技术可以用于快速、准确地重建大范围的野外场景,为相关领域的决策提供重要的数据支持。未来,该技术还可以与SLAM、路径规划等技术相结合,实现无人机的自主导航和场景重建。

📄 摘要(原文)

Drones have become essential tools for reconstructing wild scenes due to their outstanding maneuverability. Recent advances in radiance field methods have achieved remarkable rendering quality, providing a new avenue for 3D reconstruction from drone imagery. However, dynamic distractors in wild environments challenge the static scene assumption in radiance fields, while limited view constraints hinder the accurate capture of underlying scene geometry. To address these challenges, we introduce DroneSplat, a novel framework designed for robust 3D reconstruction from in-the-wild drone imagery. Our method adaptively adjusts masking thresholds by integrating local-global segmentation heuristics with statistical approaches, enabling precise identification and elimination of dynamic distractors in static scenes. We enhance 3D Gaussian Splatting with multi-view stereo predictions and a voxel-guided optimization strategy, supporting high-quality rendering under limited view constraints. For comprehensive evaluation, we provide a drone-captured 3D reconstruction dataset encompassing both dynamic and static scenes. Extensive experiments demonstrate that DroneSplat outperforms both 3DGS and NeRF baselines in handling in-the-wild drone imagery.