Uni-SLAM: Uncertainty-Aware Neural Implicit SLAM for Real-Time Dense Indoor Scene Reconstruction

📄 arXiv: 2412.00242v1 📥 PDF

作者: Shaoxiang Wang, Yaxu Xie, Chun-Peng Chang, Christen Millerdurai, Alain Pagani, Didier Stricker

分类: cs.CV

发布日期: 2024-11-29

备注: Winter Conference on Applications of Computer Vision (WACV 2025)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Uni-SLAM:不确定性感知的神经隐式SLAM,用于实时稠密室内场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经隐式SLAM 室内场景重建 不确定性感知 哈希网格 实时性能

📋 核心要点

  1. 现有稠密视觉SLAM在实时重建室内场景的薄结构时面临挑战,忽略了RGB-D数据质量差异。
  2. Uni-SLAM提出了一种基于哈希网格的解耦3D空间表示,并引入预测不确定性来优化损失函数。
  3. 实验表明,Uni-SLAM在跟踪和映射精度上达到SOTA,并在薄结构重建方面显著优于现有方法。

📝 摘要(中文)

神经隐式场最近作为一种强大的多视角表面重建方法而出现,这归功于它们的简单性和最先进的性能。然而,在确保实时性能的同时重建室内场景的薄结构仍然是稠密视觉SLAM系统的一个挑战。先前的方法没有考虑输入RGB-D数据的不同质量,并采用固定频率映射过程来重建场景,这可能导致某些帧中有价值信息的丢失。在本文中,我们提出了Uni-SLAM,一种基于哈希网格的解耦3D空间表示,用于室内重建。我们引入了一种新定义的预测不确定性来重新加权损失函数,以及战略性的局部到全局的Bundle Adjustment。在合成和真实世界数据集上的实验表明,我们的系统实现了最先进的跟踪和映射精度,同时保持了实时性能。它显著优于当前的方法,在Replica数据集上深度L1误差降低了25%,1厘米内的完成率提高了66.86%,反映了对薄结构的更准确重建。

🔬 方法详解

问题定义:现有基于神经隐式场的SLAM方法在重建室内场景时,难以兼顾实时性和薄结构重建的精度。它们通常忽略了输入RGB-D数据的质量差异,并采用固定的频率映射,导致信息损失和重建质量下降。

核心思路:Uni-SLAM的核心思路是利用预测不确定性来指导神经隐式场的学习过程。通过估计每个像素或体素的不确定性,可以动态地调整损失函数的权重,从而更加关注高质量的数据,并减少低质量数据的影响。这种方法能够更有效地利用输入数据,提高重建精度,尤其是在薄结构区域。

技术框架:Uni-SLAM系统包含以下主要模块:1) RGB-D数据输入;2) 位姿跟踪模块,用于估计相机位姿;3) 基于哈希网格的神经隐式场表示,用于存储和更新场景几何信息;4) 不确定性估计模块,用于预测每个像素或体素的不确定性;5) 损失函数加权模块,根据不确定性调整损失函数权重;6) 局部到全局的Bundle Adjustment,用于优化相机位姿和场景几何。

关键创新:Uni-SLAM的关键创新在于引入了预测不确定性来指导神经隐式场的学习。这种不确定性感知的方法能够动态地调整损失函数权重,从而更加关注高质量的数据,并减少低质量数据的影响。此外,Uni-SLAM还采用了局部到全局的Bundle Adjustment,进一步提高了重建精度和一致性。

关键设计:Uni-SLAM使用哈希网格来表示3D空间,每个网格单元存储一个特征向量。不确定性估计模块采用一个小型神经网络,输入RGB-D数据和相机位姿,输出每个像素或体素的不确定性值。损失函数采用深度L1损失,并根据不确定性进行加权。局部到全局的Bundle Adjustment采用迭代优化算法,同时优化相机位姿和哈希网格中的特征向量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uni-SLAM在Replica数据集上取得了显著的性能提升,深度L1误差降低了25%,1厘米内的完成率提高了66.86%。这些结果表明,Uni-SLAM能够更准确地重建室内场景的薄结构,并优于现有的SLAM方法。此外,Uni-SLAM还保持了实时性能,使其能够应用于实际场景。

🎯 应用场景

Uni-SLAM具有广泛的应用前景,包括机器人导航、虚拟现实、增强现实、三维地图构建等领域。它可以用于构建高精度、实时的室内场景模型,为机器人提供更准确的环境感知,为用户提供更沉浸式的虚拟现实体验。此外,该技术还可以应用于文物保护、建筑设计等领域。

📄 摘要(原文)

Neural implicit fields have recently emerged as a powerful representation method for multi-view surface reconstruction due to their simplicity and state-of-the-art performance. However, reconstructing thin structures of indoor scenes while ensuring real-time performance remains a challenge for dense visual SLAM systems. Previous methods do not consider varying quality of input RGB-D data and employ fixed-frequency mapping process to reconstruct the scene, which could result in the loss of valuable information in some frames. In this paper, we propose Uni-SLAM, a decoupled 3D spatial representation based on hash grids for indoor reconstruction. We introduce a novel defined predictive uncertainty to reweight the loss function, along with strategic local-to-global bundle adjustment. Experiments on synthetic and real-world datasets demonstrate that our system achieves state-of-the-art tracking and mapping accuracy while maintaining real-time performance. It significantly improves over current methods with a 25% reduction in depth L1 error and a 66.86% completion rate within 1 cm on the Replica dataset, reflecting a more accurate reconstruction of thin structures. Project page: https://shaoxiang777.github.io/project/uni-slam/