CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting

作者: Hexu Zhao, Xiwen Min, Xiaoteng Liu, Moonjun Gong, Yiming Li, Ang Li, Saining Xie, Jinyang Li, Aurojit Panda

分类: cs.CV

发布日期: 2025-11-07

备注: Accepted to appear in the 2026 ACM International Conference on Architectural Support for Programming Languages and Operating Systems

💡 一句话要点

CLM：消除3D高斯溅射的GPU内存瓶颈，实现大规模场景渲染

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 新视角合成 GPU内存优化 大规模场景渲染 流水线调度

📋 核心要点

3DGS内存需求大，限制了其在大型复杂场景的应用，现有GPU难以满足其内存需求。
CLM通过将高斯分布卸载到CPU内存，并设计流水线策略，重叠GPU-CPU通信、GPU计算和CPU计算，降低开销。
实验表明，CLM可以在单RTX4090上渲染包含1亿高斯分布的场景，并达到SOTA重建质量。

📝 摘要（中文）

3D高斯溅射(3DGS)因其快速的渲染时间和高质量的输出，正成为一种越来越流行的新视角合成方法。然而，由于其巨大的内存需求，扩展3DGS到大型（或复杂）场景面临挑战，这些需求超过了大多数GPU的内存容量。本文介绍CLM，一个允许3DGS使用单个消费级GPU（例如RTX4090）渲染大型场景的系统。它通过将高斯分布卸载到CPU内存，并在必要时才将其加载到GPU内存来实现这一点。为了减少性能和通信开销，CLM使用了一种新颖的卸载策略，该策略利用了对3DGS内存访问模式的观察结果进行流水线处理，从而重叠GPU到CPU的通信、GPU计算和CPU计算。此外，我们还利用对访问模式的观察来减少通信量。我们的评估表明，由此产生的实现可以在单个RTX4090上渲染需要1亿个高斯分布的大型场景，并实现最先进的重建质量。

🔬 方法详解

问题定义：3D高斯溅射(3DGS)在渲染大规模场景时，其内存需求往往超过现有GPU的容量，导致无法在消费级GPU上进行高效渲染。现有方法要么依赖于昂贵的专业GPU，要么无法保证渲染质量和效率。因此，如何降低3DGS的内存占用，使其能够在消费级GPU上渲染大规模场景，是一个亟待解决的问题。

核心思路：CLM的核心思路是将部分高斯分布数据卸载到CPU内存中，仅在渲染时将需要的数据加载到GPU内存。通过智能的调度和流水线设计，隐藏GPU-CPU之间的数据传输开销，从而在保证渲染质量的同时，降低对GPU内存的需求。

技术框架：CLM的整体框架包含以下几个主要模块：1) 高斯分布管理模块：负责维护高斯分布数据，并决定哪些数据需要卸载到CPU内存。2) 数据传输模块：负责GPU和CPU之间的数据传输，采用异步传输方式，减少阻塞。3) 渲染模块：负责在GPU上进行渲染，并根据需要从CPU内存中加载数据。4) 流水线调度模块：负责调度数据传输、GPU计算和CPU计算，实现流水线并行，隐藏通信开销。

关键创新：CLM的关键创新在于其新颖的卸载策略和流水线调度机制。该策略基于对3DGS内存访问模式的观察，预测哪些高斯分布在短期内不需要使用，并将其卸载到CPU内存。流水线调度机制则通过重叠GPU-CPU通信、GPU计算和CPU计算，最大限度地减少了数据传输带来的性能损失。与现有方法相比，CLM能够在不牺牲渲染质量的前提下，显著降低对GPU内存的需求。

关键设计：CLM的关键设计包括：1) 基于访问频率的高斯分布卸载策略：优先卸载访问频率低的高斯分布。2) 异步数据传输：使用CUDA异步传输API，减少GPU阻塞。3) 流水线调度：精心设计GPU计算、CPU计算和数据传输的执行顺序，实现流水线并行。4) 通信量优化：通过分析渲染过程中的数据依赖关系，减少不必要的数据传输。

🖼️ 关键图片

📊 实验亮点

CLM在单个RTX4090上成功渲染了包含1亿个高斯分布的大规模场景，并实现了最先进的重建质量。实验结果表明，CLM能够显著降低3DGS对GPU内存的需求，使其能够在消费级GPU上运行。与现有方法相比，CLM在保证渲染质量的同时，提高了渲染效率，为大规模场景的3DGS应用提供了新的解决方案。

🎯 应用场景

CLM技术可广泛应用于需要大规模场景渲染的领域，如虚拟现实、增强现实、游戏开发、城市建模、自动驾驶等。它降低了对硬件的要求，使得更多开发者和用户能够在消费级设备上体验高质量的3D内容。未来，该技术有望推动3DGS在更广泛领域的应用，并促进相关产业的发展。

📄 摘要（原文）

3D Gaussian Splatting (3DGS) is an increasingly popular novel view synthesis approach due to its fast rendering time, and high-quality output. However, scaling 3DGS to large (or intricate) scenes is challenging due to its large memory requirement, which exceed most GPU's memory capacity. In this paper, we describe CLM, a system that allows 3DGS to render large scenes using a single consumer-grade GPU, e.g., RTX4090. It does so by offloading Gaussians to CPU memory, and loading them into GPU memory only when necessary. To reduce performance and communication overheads, CLM uses a novel offloading strategy that exploits observations about 3DGS's memory access pattern for pipelining, and thus overlap GPU-to-CPU communication, GPU computation and CPU computation. Furthermore, we also exploit observation about the access pattern to reduce communication volume. Our evaluation shows that the resulting implementation can render a large scene that requires 100 million Gaussians on a single RTX4090 and achieve state-of-the-art reconstruction quality.

CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理