AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction
作者: Hanyang Liu, Rongjun Qin
分类: cs.CV, cs.AI
发布日期: 2026-02-28
💡 一句话要点
AeroDGS:面向单目航拍的物理一致动态高斯溅射4D重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 动态场景重建 高斯溅射 单目视觉 无人机 物理先验 4D重建 运动估计
📋 核心要点
- 单目航拍场景下的动态重建面临深度模糊和运动估计不稳定的挑战,现有方法难以有效处理。
- AeroDGS通过单目几何提升模块和物理引导优化模块,从几何和物理先验角度解决单目歧义问题。
- 在合成和真实无人机数据集上,AeroDGS显著优于现有技术,提升了动态航拍重建的保真度。
📝 摘要(中文)
本文提出AeroDGS,一个基于物理先验的4D高斯溅射框架,用于单目无人机视频的动态场景重建。针对单视角航拍场景下,大空间范围、小尺度动态目标和剧烈运动差异导致的深度模糊和运动估计不稳定问题,AeroDGS引入单目几何提升模块,从单帧航拍序列中重建可靠的静态和动态几何体,为动态估计提供鲁棒的基础。为进一步解决单目歧义,提出了物理引导优化模块,该模块结合了可微的地面支撑、直立稳定性和轨迹平滑性先验,将模糊的图像线索转化为物理上一致的运动。该框架联合优化静态背景和动态实体,实现稳定的几何结构和连贯的时间演化。此外,构建了一个真实世界的无人机数据集,涵盖各种高度和运动条件,用于评估动态航拍重建。在合成和真实无人机场景上的实验表明,AeroDGS优于现有方法,在动态航拍环境中实现了卓越的重建保真度。
🔬 方法详解
问题定义:论文旨在解决单目无人机视频中动态场景的4D重建问题。现有方法在处理单视角、大空间范围、小尺度动态目标和剧烈运动差异的航拍视频时,容易出现深度模糊和运动估计不稳定,导致重建效果不佳。这些问题使得单目航拍重建成为一个固有的病态问题。
核心思路:论文的核心思路是利用物理先验知识来约束动态场景的重建过程,从而解决单目视觉的歧义性。具体来说,通过引入地面支撑、直立稳定性和轨迹平滑性等物理约束,将模糊的图像信息转化为物理上合理的运动估计,从而提高重建的准确性和稳定性。
技术框架:AeroDGS框架主要包含两个模块:单目几何提升模块和物理引导优化模块。首先,单目几何提升模块从单帧航拍序列中重建静态和动态几何体,为后续的动态估计提供基础。然后,物理引导优化模块利用可微的物理先验知识,对静态背景和动态实体进行联合优化,得到具有稳定几何结构和连贯时间演化的4D重建结果。
关键创新:论文的关键创新在于将物理先验知识融入到动态高斯溅射框架中,从而有效地解决了单目航拍场景下的深度模糊和运动估计不稳定问题。通过可微的物理约束,实现了对动态场景的物理一致性建模,提高了重建的真实感和可靠性。
关键设计:物理引导优化模块是关键设计之一。该模块通过引入可微的地面支撑损失、直立稳定性损失和轨迹平滑性损失,来约束动态实体的运动。地面支撑损失鼓励动态实体与地面接触,直立稳定性损失保证动态实体保持直立姿态,轨迹平滑性损失则约束动态实体的运动轨迹平滑。这些损失函数的设计使得框架能够有效地利用物理先验知识,提高重建的准确性和稳定性。
📊 实验亮点
AeroDGS在合成和真实无人机数据集上都取得了显著的性能提升。实验结果表明,AeroDGS在动态航拍场景下的重建质量明显优于现有方法,能够更准确地捕捉动态物体的运动轨迹和几何结构。具体性能数据未知,但论文强调了其在重建保真度方面的优越性。
🎯 应用场景
AeroDGS技术可应用于无人机巡检、城市建模、自动驾驶等领域。例如,在无人机巡检中,可以利用该技术对桥梁、建筑物等基础设施进行动态三维重建,及时发现潜在的安全隐患。在城市建模中,可以用于快速构建城市的三维模型,为城市规划和管理提供支持。在自动驾驶领域,可以用于感知周围的动态环境,提高自动驾驶系统的安全性。
📄 摘要(原文)
Recent advances in 4D scene reconstruction have significantly improved dynamic modeling across various domains. However, existing approaches remain limited under aerial conditions with single-view capture, wide spatial range, and dynamic objects of limited spatial footprint and large motion disparity. These challenges cause severe depth ambiguity and unstable motion estimation, making monocular aerial reconstruction inherently ill-posed. To this end, we present AeroDGS, a physics-guided 4D Gaussian splatting framework for monocular UAV videos. AeroDGS introduces a Monocular Geometry Lifting module that reconstructs reliable static and dynamic geometry from a single aerial sequence, providing a robust basis for dynamic estimation. To further resolve monocular ambiguity, we propose a Physics-Guided Optimization module that incorporates differentiable ground-support, upright-stability, and trajectory-smoothness priors, transforming ambiguous image cues into physically consistent motion. The framework jointly refines static backgrounds and dynamic entities with stable geometry and coherent temporal evolution. We additionally build a real-world UAV dataset that spans various altitudes and motion conditions to evaluate dynamic aerial reconstruction. Experiments on synthetic and real UAV scenes demonstrate that AeroDGS outperforms state-of-the-art methods, achieving superior reconstruction fidelity in dynamic aerial environments.