CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting

作者: Hexu Zhao, Xiwen Min, Xiaoteng Liu, Moonjun Gong, Yiming Li, Ang Li, Saining Xie, Jinyang Li, Aurojit Panda

分类: cs.CV

发布日期: 2025-11-07

备注: Accepted to appear in the 2026 ACM International Conference on Architectural Support for Programming Languages and Operating Systems

💡 一句话要点

CLM：通过CPU卸载解决3D高斯溅射的GPU内存瓶颈

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 3D高斯溅射 新视角合成 GPU内存优化 CPU卸载 流水线优化

📋 核心要点

3D高斯溅射在大型场景应用中面临GPU内存容量的限制，阻碍了其进一步发展。
CLM通过将高斯分布卸载到CPU内存，并设计高效的流水线策略，克服了GPU内存瓶颈。
实验结果表明，CLM能够在单张RTX4090上渲染包含1亿个高斯分布的大型场景，并保持高质量的重建效果。

📝 摘要（中文）

3D高斯溅射(3DGS)因其快速的渲染时间和高质量的输出，正成为一种越来越流行的新视角合成方法。然而，由于其庞大的内存需求，扩展3DGS到大型（或复杂）场景面临挑战，这些需求超出了大多数GPU的内存容量。本文介绍CLM，一个允许3DGS使用单个消费级GPU（例如RTX4090）渲染大型场景的系统。它通过将高斯分布卸载到CPU内存，并在必要时才将其加载到GPU内存中来实现这一点。为了减少性能和通信开销，CLM使用了一种新颖的卸载策略，该策略利用了对3DGS内存访问模式的观察结果进行流水线处理，从而重叠GPU到CPU的通信、GPU计算和CPU计算。此外，我们还利用对访问模式的观察结果来减少通信量。我们的评估表明，由此产生的实现可以在单个RTX4090上渲染需要1亿个高斯分布的大型场景，并实现最先进的重建质量。

🔬 方法详解

问题定义：3D高斯溅射(3DGS)在渲染大型复杂场景时，需要存储大量的高斯参数，导致GPU内存需求急剧增加。现有方法难以在消费级GPU上处理这些场景，限制了3DGS的应用范围。痛点在于无法有效利用CPU内存来扩展3DGS的渲染能力。

核心思路：CLM的核心思路是将部分高斯参数卸载到CPU内存中，仅在渲染时将需要的高斯参数加载到GPU内存。通过精心设计的卸载策略和流水线机制，隐藏CPU和GPU之间的数据传输开销，从而在不显著降低渲染速度的前提下，突破GPU内存的限制。

技术框架：CLM的整体框架包含以下几个主要阶段：1) 高斯分布的卸载决策：根据某种策略（例如，基于视锥体的可见性）决定哪些高斯分布需要卸载到CPU内存。2) 数据传输：将选定的高斯分布从GPU内存传输到CPU内存。3) 渲染：在渲染过程中，根据需要将CPU内存中的高斯分布加载到GPU内存。4) 流水线优化：通过重叠GPU计算、CPU计算和数据传输，减少整体渲染时间。

关键创新：CLM的关键创新在于其卸载策略和流水线机制。传统的卸载方法可能会引入显著的通信开销，而CLM通过分析3DGS的内存访问模式，设计了一种能够有效隐藏通信开销的流水线策略。此外，CLM还通过减少通信量来进一步优化性能。

关键设计：CLM的关键设计包括：1) 基于视锥体可见性的卸载决策：优先卸载视锥体外部的高斯分布。2) 双缓冲机制：使用双缓冲来重叠数据传输和GPU计算。3) 异步数据传输：使用异步数据传输来避免阻塞GPU计算。4) 通信量优化：通过只传输必要的高斯参数来减少通信量。

📊 实验亮点

CLM能够在单张RTX4090上渲染包含1亿个高斯分布的大型场景，显著扩展了3DGS的应用范围。实验表明，CLM在保持最先进重建质量的同时，能够有效地利用CPU内存来弥补GPU内存的不足。性能测试表明，CLM的渲染速度与完全在GPU上运行的3DGS相比，性能下降可控，实现了性能与内存使用的平衡。

🎯 应用场景

CLM技术可广泛应用于需要高真实感和快速渲染的大规模三维场景，例如城市级别的数字孪生、大型游戏场景、虚拟现实/增强现实应用等。该技术降低了对GPU硬件的要求，使得在消费级硬件上渲染复杂场景成为可能，从而推动了3DGS技术的普及和应用。

📄 摘要（原文）

3D Gaussian Splatting (3DGS) is an increasingly popular novel view synthesis approach due to its fast rendering time, and high-quality output. However, scaling 3DGS to large (or intricate) scenes is challenging due to its large memory requirement, which exceed most GPU's memory capacity. In this paper, we describe CLM, a system that allows 3DGS to render large scenes using a single consumer-grade GPU, e.g., RTX4090. It does so by offloading Gaussians to CPU memory, and loading them into GPU memory only when necessary. To reduce performance and communication overheads, CLM uses a novel offloading strategy that exploits observations about 3DGS's memory access pattern for pipelining, and thus overlap GPU-to-CPU communication, GPU computation and CPU computation. Furthermore, we also exploit observation about the access pattern to reduce communication volume. Our evaluation shows that the resulting implementation can render a large scene that requires 100 million Gaussians on a single RTX4090 and achieve state-of-the-art reconstruction quality.

CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册