GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments
作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu
分类: cs.RO
发布日期: 2026-04-14
备注: 8 pages, Accepted by ICRA 2026
💡 一句话要点
GGD-SLAM:基于可泛化运动模型的单目3DGS SLAM,用于动态环境
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 动态SLAM 3D高斯溅射 运动模型 语义特征提取 稠密重建
📋 核心要点
- 现有基于3D高斯溅射(3DGS)的视觉SLAM算法在动态环境中性能显著下降,因为它们依赖于静态环境假设。
- GGD-SLAM通过可泛化的运动模型,结合动态语义特征提取和静态信息采样,有效分离和处理动态环境中的静态与动态成分。
- 实验结果表明,GGD-SLAM在真实动态数据集上实现了最先进的相机姿态估计和稠密重建性能,验证了其有效性。
📝 摘要(中文)
本文提出GGD-SLAM,一个利用可泛化运动模型解决动态环境中定位和稠密建图挑战的框架,无需预定义的语义标注或深度输入。该系统采用先进先出(FIFO)队列管理输入帧,通过序列注意力机制提取动态语义特征,并结合动态特征增强器分离静态和动态成分。此外,为了最小化动态干扰对静态成分的影响,我们设计了一种通过静态信息采样填充遮挡区域的方法,并设计了一种针对动态环境的、自适应干扰的结构相似性指数度量(SSIM)损失,显著增强了系统的鲁棒性。在真实动态数据集上的实验表明,该系统在动态场景中的相机姿态估计和稠密重建方面实现了最先进的性能。
🔬 方法详解
问题定义:现有的基于3DGS的SLAM方法在动态环境中表现不佳,主要原因是它们假设环境是静态的。动态物体的存在会导致特征提取错误、地图漂移和重建质量下降。因此,如何在动态环境中实现鲁棒的相机姿态估计和高质量的稠密重建是一个关键问题。
核心思路:GGD-SLAM的核心思路是利用可泛化的运动模型来区分和处理动态环境中的静态和动态成分。通过动态语义特征提取和静态信息采样,系统能够减少动态物体对静态地图的影响,并提高相机姿态估计的准确性。自适应干扰的SSIM损失进一步增强了系统在动态环境中的鲁棒性。
技术框架:GGD-SLAM系统主要包含以下几个模块:1) FIFO队列:用于管理输入帧序列。2) 动态语义特征提取模块:通过序列注意力机制提取动态语义特征。3) 动态特征增强器:用于分离静态和动态成分。4) 静态信息采样模块:用于填充遮挡区域。5) 姿态优化模块:利用优化的姿态进行3DGS的更新。
关键创新:GGD-SLAM的关键创新在于:1) 提出了一个可泛化的运动模型,能够有效区分和处理动态环境中的静态和动态成分。2) 设计了一种自适应干扰的SSIM损失,能够提高系统在动态环境中的鲁棒性。3) 结合了动态语义特征提取和静态信息采样,能够更准确地估计相机姿态和重建稠密地图。
关键设计:1) FIFO队列的长度是一个关键参数,需要根据场景的动态程度进行调整。2) 动态语义特征提取模块中的注意力机制的设计,需要平衡计算复杂度和特征提取的准确性。3) 自适应干扰的SSIM损失中的权重参数,需要根据实验结果进行调整,以达到最佳的性能。
🖼️ 关键图片
📊 实验亮点
GGD-SLAM在真实动态数据集上进行了实验,结果表明其在相机姿态估计和稠密重建方面取得了最先进的性能。具体而言,GGD-SLAM在相机姿态估计的绝对轨迹误差(ATE)和相对姿态误差(RPE)指标上,相比于其他基线方法,均有显著的降低。在稠密重建方面,GGD-SLAM能够生成更高质量、更完整的3D地图,尤其是在动态区域。
🎯 应用场景
GGD-SLAM在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在自动驾驶中,GGD-SLAM可以帮助车辆在复杂的城市环境中进行精确定位和地图构建,从而提高驾驶安全性。在增强现实中,GGD-SLAM可以实现更逼真的虚拟现实融合,为用户提供更好的体验。该研究的未来影响在于推动SLAM技术在动态环境中的应用,并促进相关领域的发展。
📄 摘要(原文)
Visual SLAM algorithms achieve significant improvements through the exploration of 3D Gaussian Splatting (3DGS) representations, particularly in generating high-fidelity dense maps. However, they depend on a static environment assumption and experience significant performance degradation in dynamic environments. This paper presents GGD-SLAM, a framework that employs a generalizable motion model to address the challenges of localization and dense mapping in dynamic environments - without predefined semantic annotations or depth input. Specifically, the proposed system employs a First-In-First-Out (FIFO) queue to manage incoming frames, facilitating dynamic semantic feature extraction through a sequential attention mechanism. This is integrated with a dynamic feature enhancer to separate static and dynamic components. Additionally, to minimize dynamic distractors' impact on the static components, we devise a method to fill occluded areas via static information sampling and design a distractor-adaptive Structure Similarity Index Measure (SSIM) loss tailored for dynamic environments, significantly enhancing the system's resilience. Experiments conducted on real-world dynamic datasets demonstrate that the proposed system achieves state-of-the-art performance in camera pose estimation and dense reconstruction in dynamic scenes.