Momentum-GS: Momentum Gaussian Self-Distillation for High-Quality Large Scene Reconstruction

📄 arXiv: 2412.04887v2 📥 PDF

作者: Jixuan Fan, Wanhua Li, Yifei Han, Tianru Dai, Yansong Tang

分类: cs.CV

发布日期: 2024-12-06 (更新: 2025-08-02)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出动量高斯自蒸馏方法,用于高质量大规模场景重建。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 大规模场景重建 自蒸馏 动量学习 并行训练

📋 核心要点

  1. 现有3D高斯溅射方法在大场景重建中面临高内存消耗和存储开销的挑战。
  2. Momentum-GS通过动量自蒸馏,利用教师模型提供全局指导,提升块间一致性和重建精度。
  3. 实验表明,该方法在LPIPS指标上显著优于现有技术,并减少了分块数量。

📝 摘要(中文)

3D高斯溅射在大型场景重建中表现出色,但训练内存消耗和存储开销仍然是挑战。混合表示结合隐式和显式特征,提供了一种缓解这些限制的方法。然而,当应用于并行分块训练时,会出现两个关键问题:由于独立训练每个块时数据多样性降低,重建精度会下降;并行训练将划分的块数限制为可用的GPU数量。为了解决这些问题,我们提出了一种新的方法Momentum-GS,它利用基于动量的自蒸馏来提高块之间的一致性和准确性,同时将块的数量与物理GPU的数量解耦。我们的方法维护一个用动量更新的教师高斯解码器,确保训练期间的稳定参考。该教师以自蒸馏的方式为每个块提供全局指导,从而提高重建中的空间一致性。为了进一步确保块之间的一致性,我们引入了块加权,根据每个块的重建精度动态调整其权重。在大型场景上的大量实验表明,我们的方法始终优于现有技术,在LPIPS指标上比CityGaussian提高了12.8%,并且使用了更少的分块,从而建立了新的state-of-the-art。

🔬 方法详解

问题定义:论文旨在解决大规模场景重建中,3D高斯溅射方法训练时内存消耗过高以及存储开销过大的问题。现有方法在并行分块训练时,由于数据多样性降低和GPU数量限制,导致重建精度下降,并且限制了可划分的块数。

核心思路:论文的核心思路是利用动量自蒸馏,维护一个教师高斯解码器,为每个训练块提供全局指导,从而提高块之间的一致性和重建精度。通过动量更新教师模型,保证训练过程中的稳定参考,避免因块独立训练导致的不一致性。

技术框架:Momentum-GS的整体框架包括以下几个主要模块:1) 并行分块训练:将场景划分为多个块,并行训练每个块。2) 动量更新的教师高斯解码器:维护一个教师模型,使用动量更新其参数,提供稳定的全局指导。3) 自蒸馏:使用教师模型的输出作为每个块训练的参考,通过损失函数促使学生模型(每个块的解码器)与教师模型保持一致。4) 块加权:根据每个块的重建精度动态调整其权重,进一步提高整体重建质量。

关键创新:该方法最重要的创新点在于引入了动量自蒸馏机制,将教师模型与学生模型相结合,在并行分块训练中实现了全局一致性。与现有方法相比,该方法不需要增加额外的GPU资源,并且能够有效提高重建精度。

关键设计:关键设计包括:1) 动量更新策略:教师模型的参数通过动量更新,保证其稳定性。2) 自蒸馏损失函数:设计损失函数,促使学生模型的输出与教师模型的输出保持一致。3) 块加权策略:根据每个块的重建精度动态调整其权重,提高整体重建质量。具体参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Momentum-GS在大型场景重建任务中显著优于现有方法。在LPIPS指标上,相比于CityGaussian,该方法取得了12.8%的提升,并且使用了更少的分块。这表明该方法在保证重建质量的同时,降低了计算资源的需求,建立了新的state-of-the-art。

🎯 应用场景

该研究成果可应用于城市级三维重建、自动驾驶、虚拟现实、增强现实等领域。通过降低内存消耗和提高重建精度,可以更高效地构建大规模场景的三维模型,为相关应用提供高质量的数据基础,并有望推动相关技术的发展。

📄 摘要(原文)

3D Gaussian Splatting has demonstrated notable success in large-scale scene reconstruction, but challenges persist due to high training memory consumption and storage overhead. Hybrid representations that integrate implicit and explicit features offer a way to mitigate these limitations. However, when applied in parallelized block-wise training, two critical issues arise since reconstruction accuracy deteriorates due to reduced data diversity when training each block independently, and parallel training restricts the number of divided blocks to the available number of GPUs. To address these issues, we propose Momentum-GS, a novel approach that leverages momentum-based self-distillation to promote consistency and accuracy across the blocks while decoupling the number of blocks from the physical GPU count. Our method maintains a teacher Gaussian decoder updated with momentum, ensuring a stable reference during training. This teacher provides each block with global guidance in a self-distillation manner, promoting spatial consistency in reconstruction. To further ensure consistency across the blocks, we incorporate block weighting, dynamically adjusting each block's weight according to its reconstruction accuracy. Extensive experiments on large-scale scenes show that our method consistently outperforms existing techniques, achieving a 12.8% improvement in LPIPS over CityGaussian with much fewer divided blocks and establishing a new state of the art. Project page: https://jixuan-fan.github.io/Momentum-GS_Page/