Neo: Real-Time On-Device 3D Gaussian Splatting with Reuse-and-Update Sorting Acceleration

作者: Changhun Oh, Seongryong Oh, Jinwoo Hwang, Yoonsung Kim, Hardik Sharma, Jongse Park

分类: cs.AR, cs.CV

发布日期: 2025-11-17

💡 一句话要点

Neo：基于重用-更新排序加速的实时端侧3D高斯溅射

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 3D高斯溅射 实时渲染 端侧加速 排序算法 硬件加速器

📋 核心要点

现有3DGS方案在资源受限设备上实时渲染时，尤其在高分辨率下，难以达到高帧率，排序阶段是主要瓶颈。
Neo提出重用-更新排序算法，利用连续帧间高斯排序的时间冗余，并设计硬件加速器优化该算法。
实验表明，Neo比现有边缘GPU和ASIC方案吞吐量分别高10倍和5.6倍，DRAM流量减少94.5%和81.3%。

📝 摘要（中文）

在资源受限的设备上实时渲染3D高斯溅射(3DGS)对于提供沉浸式增强现实和虚拟现实(AR/VR)体验至关重要。然而，现有的解决方案难以实现高帧率，尤其是在高分辨率渲染下。我们的分析表明，3DGS渲染管线中的排序阶段是主要瓶颈，因为它需要很高的内存带宽。本文提出了Neo，它引入了一种重用-更新排序算法，该算法利用连续帧之间高斯排序的时间冗余，并设计了一个针对该算法优化的硬件加速器。通过有效地跟踪和更新高斯深度排序，而不是从头开始重新排序，Neo显著减少了冗余计算和内存带宽压力。实验结果表明，Neo的吞吐量比最先进的边缘GPU和ASIC解决方案分别高出10.0倍和5.6倍，同时DRAM流量减少了94.5%和81.3%。这些改进使得高质量和低延迟的端侧3D渲染更加实用。

🔬 方法详解

问题定义：论文旨在解决在资源受限的设备上实时渲染3D高斯溅射(3DGS)时，由于排序阶段的高内存带宽需求而导致的性能瓶颈问题。现有方法通常需要对每一帧的高斯进行完全排序，这导致了大量的冗余计算和内存访问，限制了渲染帧率，尤其是在高分辨率下。

核心思路：Neo的核心思路是利用连续帧之间高斯排序的时间冗余性。由于场景变化通常是渐进的，因此相邻帧之间高斯深度的相对顺序往往保持不变。Neo通过跟踪和更新高斯深度排序，而不是每帧都从头开始重新排序，从而减少了冗余计算和内存带宽压力。

技术框架：Neo的整体框架包括一个重用-更新排序算法和一个硬件加速器。该算法首先重用上一帧的排序结果，然后仅更新那些深度顺序发生变化的高斯。硬件加速器专门针对该算法进行了优化，以高效地执行排序和更新操作。具体流程可能包含：深度缓存维护、排序结果重用、差异检测与更新、以及最终的渲染输出。

关键创新：Neo的关键创新在于其重用-更新排序算法。与传统的从头开始排序的方法不同，Neo利用了时间冗余性，显著减少了排序所需的计算量和内存带宽。此外，针对该算法设计的硬件加速器进一步提高了排序效率。

关键设计：具体的技术细节未知，但可能包括：用于跟踪高斯深度顺序的数据结构（例如，排序链表或树），用于检测深度顺序变化的算法（例如，基于深度阈值的比较），以及用于高效执行排序和更新操作的硬件架构（例如，并行比较器和交换器）。此外，可能还包括一些参数设置，例如深度阈值的大小，以及一些优化策略，例如批量处理高斯。

📊 实验亮点

Neo的实验结果表明，其性能显著优于现有方案。与最先进的边缘GPU相比，Neo的吞吐量提高了高达10.0倍，与ASIC解决方案相比，提高了5.6倍。同时，Neo还显著降低了DRAM流量，与边缘GPU相比降低了94.5%，与ASIC解决方案相比降低了81.3%。这些数据表明，Neo在提高渲染性能和降低功耗方面具有显著优势。

🎯 应用场景

Neo技术可广泛应用于AR/VR设备、移动游戏、机器人视觉等领域，尤其是在需要端侧实时3D渲染的场景中。通过降低计算和内存需求，Neo使得在资源受限的设备上实现高质量、低延迟的3D渲染成为可能，从而提升用户体验，并为新的应用场景打开了大门。未来，该技术有望推动AR/VR设备的普及，并促进相关产业的发展。

📄 摘要（原文）

3D Gaussian Splatting (3DGS) rendering in real-time on resource-constrained devices is essential for delivering immersive augmented and virtual reality (AR/VR) experiences. However, existing solutions struggle to achieve high frame rates, especially for high-resolution rendering. Our analysis identifies the sorting stage in the 3DGS rendering pipeline as the major bottleneck due to its high memory bandwidth demand. This paper presents Neo, which introduces a reuse-and-update sorting algorithm that exploits temporal redundancy in Gaussian ordering across consecutive frames, and devises a hardware accelerator optimized for this algorithm. By efficiently tracking and updating Gaussian depth ordering instead of re-sorting from scratch, Neo significantly reduces redundant computations and memory bandwidth pressure. Experimental results show that Neo achieves up to 10.0x and 5.6x higher throughput than state-of-the-art edge GPU and ASIC solution, respectively, while reducing DRAM traffic by 94.5% and 81.3%. These improvements make high-quality and low-latency on-device 3D rendering more practical.

Neo: Real-Time On-Device 3D Gaussian Splatting with Reuse-and-Update Sorting Acceleration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册