3DTurboQuant: Training-Free Near-Optimal Quantization for 3D Reconstruction Models
作者: Jae Joong Lee
分类: cs.CV, cs.AI
发布日期: 2026-04-07
备注: Preprint
🔗 代码/项目: GITHUB
💡 一句话要点
3DTurboQuant:免训练的3D重建模型近优量化方案
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 模型压缩 量化 免训练 高斯溅射 NeRF Transformer
📋 核心要点
- 现有3D重建模型压缩方法依赖于逐场景微调学习数据相关的码本,计算成本高昂且泛化性受限。
- 3DTurboQuant利用随机旋转将参数转换为已知Beta分布,从而实现数据无关的近优Lloyd-Max量化。
- 实验表明,3DTurboQuant在保证性能的同时,显著提升了3DGS和DUSt3R等模型的压缩率,且无需训练。
📝 摘要(中文)
现有的3D高斯溅射(3DGS)、NeRF或基于Transformer的3D重建模型压缩方法都需要通过逐场景微调来学习数据相关的码本。本文证明这是不必要的。这些模型中主导存储空间的参数向量,例如3DGS中的45维球谐函数和DUSt3R中的1024维键值向量,其维度范围允许通过单个随机旋转将任何输入转换为具有已知Beta分布的坐标。这使得预先计算的、数据无关的Lloyd-Max量化接近最优,在信息论下界的2.7倍以内。本文开发了3D TurboQuant,推导出了:(1)一个维度相关的准则,可以在运行任何实验之前预测哪些参数可以被量化以及量化的比特宽度;(2)连接量化MSE和每个场景渲染PSNR的范数分离界限;(3)一种条目分组策略,将基于旋转的量化扩展到二维哈希网格特征;(4)一个具有闭式压缩比的可组合的剪枝-量化流水线。在NeRF Synthetic数据集上,3DTurboQuant将3DGS压缩了3.5倍,PSNR损失为0.02dB,将DUSt3R KV缓存压缩了7.9倍,点云图保真度为39.7dB。无需训练,无需码本学习,无需校准数据。压缩只需几秒钟。
🔬 方法详解
问题定义:现有3D重建模型(如3DGS、NeRF)的压缩方法通常需要针对每个场景进行微调,以学习数据相关的码本。这种方法计算量大,耗时,并且泛化能力有限,难以应用于新的场景。因此,需要一种高效、通用的3D重建模型压缩方法,能够在不进行训练或微调的情况下实现高压缩率和低性能损失。
核心思路:论文的核心思路是利用随机旋转将模型中的参数向量(如球谐函数、键值向量)转换为具有已知Beta分布的坐标。由于参数分布已知,可以使用预先计算的、数据无关的Lloyd-Max量化器进行量化,从而避免了针对每个场景进行码本学习的需要。这种方法的核心在于发现了高维参数经过随机旋转后呈现出可预测的分布特性。
技术框架:3DTurboQuant的整体框架包括以下几个主要步骤:1) 参数分析:分析模型中哪些参数适合进行量化。2) 随机旋转:对选定的参数向量进行随机旋转。3) Lloyd-Max量化:使用预先计算的Lloyd-Max量化器对旋转后的参数进行量化。4) 后处理:进行必要的后处理操作,例如反量化。此外,论文还提出了条目分组策略,用于处理二维哈希网格特征,以及一个可组合的剪枝-量化流水线。
关键创新:该论文的关键创新在于提出了一个免训练的、数据无关的3D重建模型量化方案。与现有方法相比,该方法无需针对每个场景进行微调或码本学习,大大降低了计算成本和时间开销。此外,该方法还具有良好的泛化能力,可以应用于不同的3D重建模型。维度相关的准则,范数分离界限,条目分组策略和可组合的剪枝-量化流水线也是重要的技术创新。
关键设计:论文中几个关键的设计包括:1) 维度相关的准则:用于预测哪些参数可以被量化以及量化的比特宽度。2) 范数分离界限:用于连接量化MSE和渲染PSNR。3) 条目分组策略:用于将基于旋转的量化扩展到二维哈希网格特征。4) 可组合的剪枝-量化流水线:提供了一种灵活的压缩方案,可以根据需要进行剪枝和量化。
🖼️ 关键图片
📊 实验亮点
3DTurboQuant在NeRF Synthetic数据集上将3DGS模型压缩了3.5倍,PSNR损失仅为0.02dB。对于DUSt3R模型,KV缓存压缩了7.9倍,点云图保真度达到39.7dB。最重要的是,这些结果是在没有训练、没有码本学习、没有校准数据的情况下获得的,压缩过程仅需几秒钟。
🎯 应用场景
3DTurboQuant可广泛应用于3D内容生成、虚拟现实、增强现实等领域。通过高效压缩3D重建模型,可以降低存储和传输成本,提升用户体验。例如,在移动设备上部署高质量的3D模型,或在云端提供更快速的3D渲染服务。该研究为3D内容的普及和应用提供了重要的技术支持。
📄 摘要(原文)
Every existing method for compressing 3D Gaussian Splatting, NeRF, or transformer-based 3D reconstructors requires learning a data-dependent codebook through per-scene fine-tuning. We show this is unnecessary. The parameter vectors that dominate storage in these models, 45-dimensional spherical harmonics in 3DGS and 1024-dimensional key-value vectors in DUSt3R, fall in a dimension range where a single random rotation transforms any input into coordinates with a known Beta distribution. This makes precomputed, data-independent Lloyd-Max quantization near-optimal, within a factor of 2.7 of the information-theoretic lower bound. We develop 3D, deriving (1) a dimension-dependent criterion that predicts which parameters can be quantized and at what bit-width before running any experiment, (2) norm-separation bounds connecting quantization MSE to rendering PSNR per scene, (3) an entry-grouping strategy extending rotation-based quantization to 2-dimensional hash grid features, and (4) a composable pruning-quantization pipeline with a closed-form compression ratio. On NeRF Synthetic, 3DTurboQuant compresses 3DGS by 3.5x with 0.02dB PSNR loss and DUSt3R KV caches by 7.9x with 39.7dB pointmap fidelity. No training, no codebook learning, no calibration data. Compression takes seconds. The code will be released (https://github.com/JaeLee18/3DTurboQuant)