ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS
作者: Weijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang
分类: cs.CV
发布日期: 2025-05-29 (更新: 2025-11-17)
备注: NeurIPS 2025, Project Page: https://lhmd.top/zpressor, Code: https://github.com/ziplab/ZPressor
💡 一句话要点
ZPressor:面向可扩展前馈3DGS的瓶颈感知压缩方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 信息瓶颈 模型压缩 交叉注意力
📋 核心要点
- 现有前馈3DGS模型受限于模型容量,难以处理大量输入视图,导致性能下降或内存消耗过高。
- ZPressor通过信息瓶颈原理,将多视角信息压缩到紧凑的潜在状态,去除冗余,提升模型可扩展性。
- 实验表明,ZPressor能显著提升现有前馈3DGS模型在密集视图下的性能和鲁棒性,并在大规模数据集上验证了有效性。
📝 摘要(中文)
前馈3D高斯溅射(3DGS)模型已成为一种有前景的新视角合成解决方案,能够实现单次推理,而无需对每个场景进行3DGS优化。然而,它们的可扩展性受到模型容量的限制,导致性能下降或内存消耗过大。本文从信息瓶颈原理的角度分析了前馈3DGS框架,并引入ZPressor,这是一个轻量级的、与架构无关的模块,能够将多视角输入高效压缩成紧凑的潜在状态Z,该状态保留了必要的场景信息,同时丢弃了冗余信息。具体而言,ZPressor使现有的前馈3DGS模型能够在配备80GB GPU的设备上扩展到超过100个480P分辨率的输入视图,通过将视图划分为锚点集和支持集,并使用交叉注意力将来自支持视图的信息压缩到锚点视图中,从而形成压缩的潜在状态Z。实验表明,将ZPressor集成到多个最先进的前馈3DGS模型中,可以持续提高中等输入视图下的性能,并增强在两个大规模基准DL3DV-10K和RealEstate10K上密集视图设置下的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决前馈3D高斯溅射(3DGS)模型在处理大量输入视图时面临的可扩展性问题。现有方法由于模型容量限制,当输入视图数量增加时,性能会显著下降,或者需要消耗过多的内存资源。这限制了3DGS在实际应用中的部署。
核心思路:论文的核心思路是利用信息瓶颈原理,通过压缩多视角输入信息到一个紧凑的潜在状态Z,从而减少冗余信息,提高模型的可扩展性。ZPressor模块旨在保留关键的场景信息,同时丢弃不必要的细节,从而在有限的计算资源下处理更多的输入视图。
技术框架:ZPressor的整体框架包括将输入视图划分为锚点集和支持集。然后,使用交叉注意力机制将支持视图的信息压缩到锚点视图中,形成压缩的潜在状态Z。这个潜在状态Z随后被用于后续的3DGS渲染过程。该模块可以集成到现有的前馈3DGS模型中,无需修改原有模型的架构。
关键创新:ZPressor的关键创新在于其轻量级和架构无关的设计,以及利用交叉注意力进行信息压缩的方式。与直接增加模型容量的方法不同,ZPressor通过信息压缩来提高效率,使其能够更好地适应不同的前馈3DGS模型。此外,锚点集和支持集的划分策略也是一个创新点,允许模型有选择地关注关键视图的信息。
关键设计:ZPressor的关键设计包括交叉注意力模块的具体实现,以及锚点集和支持集的划分策略。具体的注意力机制可能采用Transformer中的标准注意力模块。锚点集和支持集的划分可能基于视图之间的相似性或重要性。损失函数的设计可能包括重建损失和正则化项,以确保潜在状态Z能够保留足够的场景信息,并避免过拟合。具体的参数设置和网络结构细节需要在论文的补充材料或代码中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ZPressor能够显著提升现有前馈3DGS模型在密集视图下的性能。例如,在DL3DV-10K和RealEstate10K数据集上,集成ZPressor的模型在处理超过100个输入视图时,仍然能够保持较高的渲染质量。此外,ZPressor还提高了模型在内存受限环境下的鲁棒性,使其能够在配备80GB GPU的设备上运行。与未集成ZPressor的模型相比,性能有显著提升。
🎯 应用场景
ZPressor的应用场景广泛,包括自动驾驶、机器人导航、虚拟现实/增强现实(VR/AR)等。在这些领域,需要从多个视角理解和重建三维场景。ZPressor能够提高3DGS模型在这些场景下的可扩展性和效率,使其能够处理更复杂的环境和更多的输入数据,从而提升用户体验和系统性能。未来,ZPressor还可以应用于三维重建、新视角合成等领域。
📄 摘要(原文)
Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their models, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state $Z$ that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state $Z$. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.