ImprovedGS+: A High-Performance C++/CUDA Re-Implementation Strategy for 3D Gaussian Splatting

📄 arXiv: 2603.08661v1 📥 PDF

作者: Jordi Muñoz Vicente

分类: cs.CV

发布日期: 2026-03-09

备注: 6 pages, 1 figure. Technical Report. This work introduces ImprovedGS+, a library-free C++/CUDA implementation for 3D Gaussian Splatting within the LichtFeld-Studio framework. Source code available at https://github.com/jordizv/ImprovedGS-Plus


💡 一句话要点

ImprovedGS+:通过C++/CUDA重构,显著提升3D高斯溅射的训练速度与质量。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 CUDA 场景重建 实时渲染 Mip-NeRF360 长轴分割 非极大值抑制

📋 核心要点

  1. 现有3D高斯溅射方法在重建质量和计算效率之间难以平衡,限制了其应用。
  2. ImprovedGS+通过C++/CUDA重构,优化底层实现,减少主机-设备同步,提升训练速度。
  3. 实验表明,ImprovedGS+在Mip-NeRF360数据集上,显著提升了训练速度和重建质量。

📝 摘要(中文)

本文提出了ImprovedGS+,一种高性能、底层重构的ImprovedGS策略,在LichtFeld-Studio框架内原生实现。通过将高级Python逻辑转换为硬件优化的C++/CUDA内核,显著减少了主机-设备同步和训练延迟。该实现引入了长轴分割(LAS)CUDA内核、基于拉普拉斯算子的自定义重要性内核以及用于边缘分数的非极大值抑制(NMS)和自适应指数尺度调度器。在Mip-NeRF360数据集上的实验结果表明,ImprovedGS+为场景重建建立了一个新的Pareto最优前沿。在1M预算下,我们的变体优于最先进的MCMC基线,训练时间减少了26.8%(每次节省17分钟),同时使用的高斯分布减少了13.3%,并保持了卓越的视觉质量。此外,我们的完整变体比ADC基线提高了1.28 dB PSNR,参数复杂度降低了38.4%。这些结果验证了ImprovedGS+作为一种可扩展、高速的解决方案,它坚持了LichtFeld-Studio生态系统中速度、质量和可用性的核心支柱。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射(3DGS)在训练过程中计算效率低下的问题。现有的3DGS方法,特别是基于Python实现的,存在大量的主机-设备同步开销,导致训练速度慢,难以满足实时或快速迭代的需求。此外,参数量和重建质量之间也需要更好的平衡。

核心思路:论文的核心思路是将3DGS的关键计算部分,从高层次的Python代码迁移到低层次、硬件优化的C++/CUDA内核中实现。通过直接在GPU上进行计算,减少主机和设备之间的数据传输和同步,从而显著提高训练速度。此外,还引入新的CUDA内核和优化策略,进一步提升性能。

技术框架:ImprovedGS+构建于LichtFeld-Studio框架内,主要包含以下几个关键模块:1) 数据结构:使用高效的C++数据结构存储高斯参数。2) 渲染模块:基于CUDA实现快速高斯渲染。3) 优化模块:包括基于梯度的参数更新和高斯分布的自适应调整。4) 重要性采样模块:使用自定义的拉普拉斯算子和非极大值抑制(NMS)来选择重要的区域进行优化。5) 尺度调度器:自适应地调整高斯分布的尺度。

关键创新:论文的关键创新点包括:1) 长轴分割(LAS)CUDA内核:用于高效地分割高斯分布。2) 自定义拉普拉斯算子和NMS:用于更精确地选择重要的边缘区域进行优化。3) 自适应指数尺度调度器:动态调整高斯分布的尺度,以提高重建质量。4) 整体的C++/CUDA重构:显著减少了主机-设备同步开销。

关键设计:1) 长轴分割(LAS)CUDA内核的具体实现细节,包括线程分配和内存访问模式。2) 拉普拉斯算子的具体形式和NMS的阈值设置。3) 自适应指数尺度调度器的参数设置,例如初始尺度和衰减率。4) 损失函数的设计,可能包括渲染损失、正则化项等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ImprovedGS+在Mip-NeRF360数据集上表现出色。在1M预算下,相比MCMC基线,训练时间减少26.8%(节省17分钟),高斯分布数量减少13.3%,同时保持了更好的视觉质量。完整变体相比ADC基线,PSNR提高了1.28 dB,参数复杂度降低了38.4%。这些数据表明ImprovedGS+在速度、质量和参数效率方面都取得了显著提升。

🎯 应用场景

ImprovedGS+可应用于快速三维场景重建、虚拟现实/增强现实、机器人导航、自动驾驶等领域。其高效的训练速度和高质量的重建结果,使其能够快速构建逼真的三维环境,为相关应用提供更好的视觉体验和感知能力。未来,该技术有望进一步扩展到动态场景重建和实时渲染等领域。

📄 摘要(原文)

Recent advancements in 3D Gaussian Splatting (3DGS) have shifted the focus toward balancing reconstruction fidelity with computational efficiency. In this work, we propose ImprovedGS+, a high-performance, low-level reinvention of the ImprovedGS strategy, implemented natively within the LichtFeld-Studio framework. By transitioning from high-level Python logic to hardware-optimized C++/CUDA kernels, we achieve a significant reduction in host-device synchronization and training latency. Our implementation introduces a Long-Axis-Split (LAS) CUDA kernel, custom Laplacian-based importance kernels with Non-Maximum Suppression (NMS) for edge scores, and an adaptive Exponential Scale Scheduler. Experimental results on the Mip-NeRF360 dataset demonstrate that ImprovedGS+ establishes a new Pareto-optimal front for scene reconstruction. Our 1M-budget variant outperforms the state-of-the-art MCMC baseline by achieving a 26.8% reduction in training time (saving 17 minutes per session) and utilizing 13.3% fewer Gaussians while maintaining superior visual quality. Furthermore, our full variant demonstrates a 1.28 dB PSNR increase over the ADC baseline with a 38.4% reduction in parametric complexity. These results validate ImprovedGS+ as a scalable, high-speed solution that upholds the core pillars of Speed, Quality, and Usability within the LichtFeld-Studio ecosystem.