CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting
作者: Hexu Zhao, Xiwen Min, Xiaoteng Liu, Moonjun Gong, Yiming Li, Ang Li, Saining Xie, Jinyang Li, Aurojit Panda
分类: cs.CV
发布日期: 2025-11-07
备注: Accepted to appear in the 2026 ACM International Conference on Architectural Support for Programming Languages and Operating Systems
💡 一句话要点
CLM:通过CPU卸载解决3D高斯溅射的GPU内存瓶颈
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 3D高斯溅射 新视角合成 GPU内存优化 CPU卸载 流水线优化
📋 核心要点
- 3D高斯溅射在大型场景应用中面临GPU内存容量的限制,阻碍了其进一步发展。
- CLM通过将高斯分布卸载到CPU内存,并设计高效的流水线策略,克服了GPU内存瓶颈。
- 实验结果表明,CLM能够在单张RTX4090上渲染包含1亿个高斯分布的大型场景,并保持高质量的重建效果。
📝 摘要(中文)
3D高斯溅射(3DGS)因其快速的渲染时间和高质量的输出,正成为一种越来越流行的新视角合成方法。然而,由于其庞大的内存需求,扩展3DGS到大型(或复杂)场景面临挑战,这些需求超出了大多数GPU的内存容量。本文介绍CLM,一个允许3DGS使用单个消费级GPU(例如RTX4090)渲染大型场景的系统。它通过将高斯分布卸载到CPU内存,并在必要时才将其加载到GPU内存中来实现这一点。为了减少性能和通信开销,CLM使用了一种新颖的卸载策略,该策略利用了对3DGS内存访问模式的观察结果进行流水线处理,从而重叠GPU到CPU的通信、GPU计算和CPU计算。此外,我们还利用对访问模式的观察结果来减少通信量。我们的评估表明,由此产生的实现可以在单个RTX4090上渲染需要1亿个高斯分布的大型场景,并实现最先进的重建质量。
🔬 方法详解
问题定义:3D高斯溅射(3DGS)在渲染大型复杂场景时,需要存储大量的高斯参数,导致GPU内存需求急剧增加。现有方法难以在消费级GPU上处理这些场景,限制了3DGS的应用范围。痛点在于无法有效利用CPU内存来扩展3DGS的渲染能力。
核心思路:CLM的核心思路是将部分高斯参数卸载到CPU内存中,仅在渲染时将需要的高斯参数加载到GPU内存。通过精心设计的卸载策略和流水线机制,隐藏CPU和GPU之间的数据传输开销,从而在不显著降低渲染速度的前提下,突破GPU内存的限制。
技术框架:CLM的整体框架包含以下几个主要阶段:1) 高斯分布的卸载决策:根据某种策略(例如,基于视锥体的可见性)决定哪些高斯分布需要卸载到CPU内存。2) 数据传输:将选定的高斯分布从GPU内存传输到CPU内存。3) 渲染:在渲染过程中,根据需要将CPU内存中的高斯分布加载到GPU内存。4) 流水线优化:通过重叠GPU计算、CPU计算和数据传输,减少整体渲染时间。
关键创新:CLM的关键创新在于其卸载策略和流水线机制。传统的卸载方法可能会引入显著的通信开销,而CLM通过分析3DGS的内存访问模式,设计了一种能够有效隐藏通信开销的流水线策略。此外,CLM还通过减少通信量来进一步优化性能。
关键设计:CLM的关键设计包括:1) 基于视锥体可见性的卸载决策:优先卸载视锥体外部的高斯分布。2) 双缓冲机制:使用双缓冲来重叠数据传输和GPU计算。3) 异步数据传输:使用异步数据传输来避免阻塞GPU计算。4) 通信量优化:通过只传输必要的高斯参数来减少通信量。
📊 实验亮点
CLM能够在单张RTX4090上渲染包含1亿个高斯分布的大型场景,显著扩展了3DGS的应用范围。实验表明,CLM在保持最先进重建质量的同时,能够有效地利用CPU内存来弥补GPU内存的不足。性能测试表明,CLM的渲染速度与完全在GPU上运行的3DGS相比,性能下降可控,实现了性能与内存使用的平衡。
🎯 应用场景
CLM技术可广泛应用于需要高真实感和快速渲染的大规模三维场景,例如城市级别的数字孪生、大型游戏场景、虚拟现实/增强现实应用等。该技术降低了对GPU硬件的要求,使得在消费级硬件上渲染复杂场景成为可能,从而推动了3DGS技术的普及和应用。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) is an increasingly popular novel view synthesis approach due to its fast rendering time, and high-quality output. However, scaling 3DGS to large (or intricate) scenes is challenging due to its large memory requirement, which exceed most GPU's memory capacity. In this paper, we describe CLM, a system that allows 3DGS to render large scenes using a single consumer-grade GPU, e.g., RTX4090. It does so by offloading Gaussians to CPU memory, and loading them into GPU memory only when necessary. To reduce performance and communication overheads, CLM uses a novel offloading strategy that exploits observations about 3DGS's memory access pattern for pipelining, and thus overlap GPU-to-CPU communication, GPU computation and CPU computation. Furthermore, we also exploit observation about the access pattern to reduce communication volume. Our evaluation shows that the resulting implementation can render a large scene that requires 100 million Gaussians on a single RTX4090 and achieve state-of-the-art reconstruction quality.