Automated 3D-GS Registration and Fusion via Skeleton Alignment and Gaussian-Adaptive Features

📄 arXiv: 2507.20480v1 📥 PDF

作者: Shiyang Liu, Dianyi Yang, Yu Gao, Bohan Ren, Yi Yang, Mengyin Fu

分类: cs.CV

发布日期: 2025-07-28

备注: Accepted to IROS 2025


💡 一句话要点

提出基于骨架对齐和高斯自适应特征的3D-GS自动配准与融合方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 场景配准 场景融合 几何骨架 椭球感知卷积

📋 核心要点

  1. 现有3D-GS方法主要集中于单图重建,缺乏对多子图配准与融合的深入研究,且依赖人工干预和点云匹配。
  2. 本文提出一种自动化的3D-GS子图配准与融合方法,通过几何骨架提取和椭球感知卷积实现鲁棒配准,并采用多因素高斯融合策略。
  3. 实验表明,该方法在复杂场景配准上RRE降低41.9%,融合后PSNR提升10.11dB,显著提升了场景对齐和重建保真度。

📝 摘要(中文)

本文提出了一种用于3D高斯溅射(3D-GS)子图自动对齐和融合的新方法,无需人工干预,同时提高了配准精度和融合质量。该方法首先提取多个场景的几何骨架,并利用椭球感知卷积来捕获3D-GS属性,从而实现鲁棒的场景配准。其次,引入了一种多因素高斯融合策略,以减轻因硬阈值处理造成的场景元素损失。在ScanNet-GSReg和Coord数据集上的实验表明,该方法在配准和融合方面均有效。在复杂场景的配准方面,RRE降低了41.9%,确保了更精确的姿态估计。在融合方面,PSNR提高了10.11 dB,突出了卓越的结构保持能力。这些结果证实了该方法能够增强场景对齐和重建保真度,从而为机器人感知和自主导航提供更一致和准确的3D场景表示。

🔬 方法详解

问题定义:现有基于3D高斯溅射(3D-GS)的场景重建方法主要关注单个地图的重建,而对于多个3D-GS子图的配准和融合研究不足。现有方法通常需要人工选择参考子图,并使用点云匹配进行配准,效率低且精度受限。此外,对3D-GS图元进行硬阈值过滤会导致融合后渲染质量下降。

核心思路:本文的核心思路是利用场景的几何骨架进行对齐,并结合高斯自适应特征进行精确配准,从而避免人工干预。同时,采用多因素高斯融合策略,以减轻硬阈值过滤带来的信息损失,提升融合后的渲染质量。这种设计旨在提高配准的自动化程度和精度,并改善融合后的场景表示效果。

技术框架:该方法主要包含两个阶段:1) 基于几何骨架的场景配准:首先提取多个场景的几何骨架,然后利用椭球感知卷积提取3D-GS属性,最后进行场景配准。2) 多因素高斯融合:采用多因素高斯融合策略,对配准后的3D-GS子图进行融合,以生成最终的场景表示。

关键创新:该方法的主要创新点在于:1) 提出了一种基于几何骨架和椭球感知卷积的3D-GS场景配准方法,无需人工干预,提高了配准的自动化程度和精度。2) 提出了一种多因素高斯融合策略,能够有效减轻硬阈值过滤带来的信息损失,提升融合后的渲染质量。与现有方法相比,该方法在配准精度和融合质量方面均有显著提升。

关键设计:在几何骨架提取方面,使用了标准的骨架提取算法。在椭球感知卷积方面,设计了一种能够感知3D-GS图元椭球形状的卷积核。在多因素高斯融合方面,考虑了多个因素,例如高斯分布的均值、方差和颜色等,并设计了一种加权融合策略。具体的参数设置和损失函数等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在ScanNet-GSReg和Coord数据集上均取得了显著的性能提升。在复杂场景的配准方面,RRE降低了41.9%,表明该方法能够更精确地估计场景的姿态。在融合方面,PSNR提高了10.11 dB,突出了该方法在结构保持方面的优势。这些结果验证了该方法在场景对齐和重建保真度方面的有效性。

🎯 应用场景

该研究成果可应用于机器人感知、自主导航、增强现实和虚拟现实等领域。通过自动化的3D场景配准与融合,可以为机器人提供更准确和完整的环境信息,从而提高其导航和操作能力。在AR/VR应用中,可以实现更逼真的场景重建和渲染,提升用户体验。此外,该方法还可以用于三维地图构建和场景理解等任务。

📄 摘要(原文)

In recent years, 3D Gaussian Splatting (3D-GS)-based scene representation demonstrates significant potential in real-time rendering and training efficiency. However, most existing methods primarily focus on single-map reconstruction, while the registration and fusion of multiple 3D-GS sub-maps remain underexplored. Existing methods typically rely on manual intervention to select a reference sub-map as a template and use point cloud matching for registration. Moreover, hard-threshold filtering of 3D-GS primitives often degrades rendering quality after fusion. In this paper, we present a novel approach for automated 3D-GS sub-map alignment and fusion, eliminating the need for manual intervention while enhancing registration accuracy and fusion quality. First, we extract geometric skeletons across multiple scenes and leverage ellipsoid-aware convolution to capture 3D-GS attributes, facilitating robust scene registration. Second, we introduce a multi-factor Gaussian fusion strategy to mitigate the scene element loss caused by rigid thresholding. Experiments on the ScanNet-GSReg and our Coord datasets demonstrate the effectiveness of the proposed method in registration and fusion. For registration, it achieves a 41.9\% reduction in RRE on complex scenes, ensuring more precise pose estimation. For fusion, it improves PSNR by 10.11 dB, highlighting superior structural preservation. These results confirm its ability to enhance scene alignment and reconstruction fidelity, ensuring more consistent and accurate 3D scene representation for robotic perception and autonomous navigation.