CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting
作者: Hexu Zhao, Xiwen Min, Xiaoteng Liu, Moonjun Gong, Yiming Li, Ang Li, Saining Xie, Jinyang Li, Aurojit Panda
分类: cs.CV
发布日期: 2025-11-07
备注: Accepted to appear in the 2026 ACM International Conference on Architectural Support for Programming Languages and Operating Systems
💡 一句话要点
CLM:消除3D高斯溅射的GPU内存瓶颈,实现大规模场景渲染
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 新视角合成 GPU内存优化 大规模场景渲染 流水线调度
📋 核心要点
- 3DGS内存需求大,限制了其在大型复杂场景的应用,现有GPU难以满足其内存需求。
- CLM通过将高斯分布卸载到CPU内存,并设计流水线策略,重叠GPU-CPU通信、GPU计算和CPU计算,降低开销。
- 实验表明,CLM可以在单RTX4090上渲染包含1亿高斯分布的场景,并达到SOTA重建质量。
📝 摘要(中文)
3D高斯溅射(3DGS)因其快速的渲染时间和高质量的输出,正成为一种越来越流行的新视角合成方法。然而,由于其巨大的内存需求,扩展3DGS到大型(或复杂)场景面临挑战,这些需求超过了大多数GPU的内存容量。本文介绍CLM,一个允许3DGS使用单个消费级GPU(例如RTX4090)渲染大型场景的系统。它通过将高斯分布卸载到CPU内存,并在必要时才将其加载到GPU内存来实现这一点。为了减少性能和通信开销,CLM使用了一种新颖的卸载策略,该策略利用了对3DGS内存访问模式的观察结果进行流水线处理,从而重叠GPU到CPU的通信、GPU计算和CPU计算。此外,我们还利用对访问模式的观察来减少通信量。我们的评估表明,由此产生的实现可以在单个RTX4090上渲染需要1亿个高斯分布的大型场景,并实现最先进的重建质量。
🔬 方法详解
问题定义:3D高斯溅射(3DGS)在渲染大规模场景时,其内存需求往往超过现有GPU的容量,导致无法在消费级GPU上进行高效渲染。现有方法要么依赖于昂贵的专业GPU,要么无法保证渲染质量和效率。因此,如何降低3DGS的内存占用,使其能够在消费级GPU上渲染大规模场景,是一个亟待解决的问题。
核心思路:CLM的核心思路是将部分高斯分布数据卸载到CPU内存中,仅在渲染时将需要的数据加载到GPU内存。通过智能的调度和流水线设计,隐藏GPU-CPU之间的数据传输开销,从而在保证渲染质量的同时,降低对GPU内存的需求。
技术框架:CLM的整体框架包含以下几个主要模块:1) 高斯分布管理模块:负责维护高斯分布数据,并决定哪些数据需要卸载到CPU内存。2) 数据传输模块:负责GPU和CPU之间的数据传输,采用异步传输方式,减少阻塞。3) 渲染模块:负责在GPU上进行渲染,并根据需要从CPU内存中加载数据。4) 流水线调度模块:负责调度数据传输、GPU计算和CPU计算,实现流水线并行,隐藏通信开销。
关键创新:CLM的关键创新在于其新颖的卸载策略和流水线调度机制。该策略基于对3DGS内存访问模式的观察,预测哪些高斯分布在短期内不需要使用,并将其卸载到CPU内存。流水线调度机制则通过重叠GPU-CPU通信、GPU计算和CPU计算,最大限度地减少了数据传输带来的性能损失。与现有方法相比,CLM能够在不牺牲渲染质量的前提下,显著降低对GPU内存的需求。
关键设计:CLM的关键设计包括:1) 基于访问频率的高斯分布卸载策略:优先卸载访问频率低的高斯分布。2) 异步数据传输:使用CUDA异步传输API,减少GPU阻塞。3) 流水线调度:精心设计GPU计算、CPU计算和数据传输的执行顺序,实现流水线并行。4) 通信量优化:通过分析渲染过程中的数据依赖关系,减少不必要的数据传输。
🖼️ 关键图片
📊 实验亮点
CLM在单个RTX4090上成功渲染了包含1亿个高斯分布的大规模场景,并实现了最先进的重建质量。实验结果表明,CLM能够显著降低3DGS对GPU内存的需求,使其能够在消费级GPU上运行。与现有方法相比,CLM在保证渲染质量的同时,提高了渲染效率,为大规模场景的3DGS应用提供了新的解决方案。
🎯 应用场景
CLM技术可广泛应用于需要大规模场景渲染的领域,如虚拟现实、增强现实、游戏开发、城市建模、自动驾驶等。它降低了对硬件的要求,使得更多开发者和用户能够在消费级设备上体验高质量的3D内容。未来,该技术有望推动3DGS在更广泛领域的应用,并促进相关产业的发展。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) is an increasingly popular novel view synthesis approach due to its fast rendering time, and high-quality output. However, scaling 3DGS to large (or intricate) scenes is challenging due to its large memory requirement, which exceed most GPU's memory capacity. In this paper, we describe CLM, a system that allows 3DGS to render large scenes using a single consumer-grade GPU, e.g., RTX4090. It does so by offloading Gaussians to CPU memory, and loading them into GPU memory only when necessary. To reduce performance and communication overheads, CLM uses a novel offloading strategy that exploits observations about 3DGS's memory access pattern for pipelining, and thus overlap GPU-to-CPU communication, GPU computation and CPU computation. Furthermore, we also exploit observation about the access pattern to reduce communication volume. Our evaluation shows that the resulting implementation can render a large scene that requires 100 million Gaussians on a single RTX4090 and achieve state-of-the-art reconstruction quality.