Compressing 3D Gaussian Splatting by Noise-Substituted Vector Quantization
作者: Haishan Wang, Mohammad Hassan Vali, Arno Solin
分类: cs.CV, cs.LG
发布日期: 2025-04-03 (更新: 2025-04-08)
备注: Appearing in Scandinavian Conference on Image Analysis (SCIA) 2025
DOI: 10.1007/978-3-031-95911-0_24
💡 一句话要点
提出噪声替代矢量量化方法,用于压缩3D高斯溅射模型并加速渲染。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 模型压缩 矢量量化 噪声替代 辐射场渲染
📋 核心要点
- 3D高斯溅射虽然渲染质量高,但存储成本巨大,每个场景需要大量高斯参数,占用大量内存。
- 论文提出噪声替代矢量量化方法,联合训练码本和模型特征,实现参数离散化和梯度下降优化的一致性。
- 实验表明,该方法能有效降低内存消耗,同时保持重建质量,并与现有3DGS查看器兼容,加速渲染。
📝 摘要(中文)
3D高斯溅射(3DGS)在3D重建中表现出卓越的有效性,以实时辐射场渲染实现了高质量的结果。然而,一个关键的挑战是巨大的存储成本:重建单个场景通常需要数百万个高斯溅射,每个高斯溅射由59个浮点参数表示,导致大约1GB的内存占用。为了解决这个挑战,我们提出了一种压缩方法,通过构建单独的属性码本并仅存储离散码索引来实现。具体来说,我们采用噪声替代矢量量化技术来联合训练码本和模型特征,确保梯度下降优化和参数离散化之间的一致性。我们的方法有效地降低了内存消耗(约45倍),同时在标准3D基准场景上保持了具有竞争力的重建质量。在不同码本大小上的实验表明了压缩率和图像质量之间的权衡。此外,训练后的压缩模型与流行的3DGS查看器完全兼容,并能实现更快的渲染速度,使其非常适合实际应用。
🔬 方法详解
问题定义:3D高斯溅射(3DGS)虽然在三维重建和辐射场渲染方面表现出色,但其存储成本非常高昂。每个场景需要存储数百万个高斯参数,导致巨大的内存占用,限制了其在资源受限设备上的应用。现有方法在压缩方面存在不足,难以在压缩率和重建质量之间取得平衡。
核心思路:论文的核心思路是利用矢量量化(Vector Quantization, VQ)技术,将3DGS模型中的连续参数离散化,从而大幅降低存储空间。为了保证离散化后的模型仍然能够进行有效的梯度下降优化,论文引入了噪声替代(Noise-Substituted)机制,使得码本的训练与模型参数的优化能够协同进行。
技术框架:该方法主要包含以下几个阶段:1) 对3DGS模型的各个属性(如位置、旋转、缩放、颜色等)分别构建码本;2) 使用噪声替代矢量量化技术,联合训练码本和3DGS模型参数;3) 在推理阶段,使用训练好的码本对3DGS模型参数进行量化,仅存储码本索引。整体流程旨在实现高压缩率的同时,保持重建质量。
关键创新:该方法最重要的技术创新点在于噪声替代矢量量化(Noise-Substituted Vector Quantization)。传统的矢量量化方法在离散化参数后,会导致梯度消失或梯度不准确的问题,影响模型的优化。而噪声替代机制通过在量化过程中引入噪声,使得梯度能够有效地传递到码本和模型参数,从而保证了训练的稳定性和有效性。
关键设计:关键设计包括:1) 对不同的属性使用不同的码本大小,以平衡压缩率和重建质量;2) 使用可学习的码本,并通过梯度下降进行优化;3) 在量化过程中引入噪声,噪声的大小和分布需要仔细调整,以保证训练的稳定性和收敛速度;4) 损失函数的设计需要考虑重建误差和码本的正则化项,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够在标准3D基准场景上实现高达45倍的压缩率,同时保持与原始3DGS模型相当的重建质量。与其他压缩方法相比,该方法在压缩率和图像质量之间取得了更好的平衡。此外,压缩后的模型与现有的3DGS查看器完全兼容,并能够实现更快的渲染速度。
🎯 应用场景
该研究成果可广泛应用于移动设备上的3D场景渲染、虚拟现实/增强现实(VR/AR)应用、以及需要低存储和快速渲染的场景。通过降低3DGS模型的存储需求,可以使得在资源受限的设备上实现高质量的3D体验成为可能。未来,该技术有望推动3D内容在更多平台上的普及。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has demonstrated remarkable effectiveness in 3D reconstruction, achieving high-quality results with real-time radiance field rendering. However, a key challenge is the substantial storage cost: reconstructing a single scene typically requires millions of Gaussian splats, each represented by 59 floating-point parameters, resulting in approximately 1 GB of memory. To address this challenge, we propose a compression method by building separate attribute codebooks and storing only discrete code indices. Specifically, we employ noise-substituted vector quantization technique to jointly train the codebooks and model features, ensuring consistency between gradient descent optimization and parameter discretization. Our method reduces the memory consumption efficiently (around $45\times$) while maintaining competitive reconstruction quality on standard 3D benchmark scenes. Experiments on different codebook sizes show the trade-off between compression ratio and image quality. Furthermore, the trained compressed model remains fully compatible with popular 3DGS viewers and enables faster rendering speed, making it well-suited for practical applications.