Improving Continual Learning for Gaussian Splatting based Environments Reconstruction on Commercial Off-the-Shelf Edge Devices
作者: Ivan Zaino, Matteo Risso, Daniele Jahier Pagliari, Miguel de Prado, Toon Van de Maele, Alessio Burrello
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
提出精度自适应优化框架,实现边缘设备上高斯溅射环境重建的持续学习。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 高斯溅射 Novel View Synthesis 边缘计算 持续学习 精度自适应 混合精度量化 内核融合 资源优化
📋 核心要点
- 现有基于高斯溅射的 novel view synthesis 方法在边缘设备上部署面临内存和计算资源的挑战。
- 论文提出精度自适应优化框架,通过内核融合和混合精度量化,降低内存占用和计算复杂度。
- 实验表明,该方法显著降低了内存占用和训练时间,并在边缘设备上实现了 novel view synthesis 训练。
📝 摘要(中文)
本文针对边缘机器人应用中,需要紧凑且可增量更新的3D场景模型的问题,提出了一种精度自适应优化框架,以实现在资源受限的硬件上训练变分贝叶斯高斯溅射(VBGS)。VBGS通过维护概率场景模型,实现了3DGS算法的无回放持续更新,但其高精度计算和大型中间张量使得设备端训练不切实际。该框架通过(i)分析VBGS以识别内存/延迟热点,(ii)融合内存密集型内核以减少物化中间张量,以及(iii)通过具有有界相对误差的混合精度搜索自动分配操作级精度,从而在不改变其变分公式的情况下,实现了VBGS在资源受限硬件上的训练。在Blender、Habitat和Replica数据集上的实验表明,该优化后的流程将A5000 GPU上的峰值内存从9.44 GB降低到1.11 GB,训练时间从约234分钟降低到约61分钟,同时保持(甚至在某些情况下提高)了最先进的VBGS基线的重建质量。此外,首次在商用嵌入式平台Jetson Orin Nano上实现了NVS训练,与3DGS相比,每帧延迟降低了19倍。
🔬 方法详解
问题定义:论文旨在解决在资源受限的边缘设备上,训练和部署基于高斯溅射(Gaussian Splatting)的 Novel View Synthesis (NVS) 模型的问题。现有方法,特别是变分贝叶斯高斯溅射(VBGS),虽然在持续学习方面表现出色,但其高精度计算和庞大的中间张量导致其难以在边缘设备上运行。痛点在于内存占用过大和计算延迟过高,无法满足边缘机器人等应用的实时性和资源约束。
核心思路:论文的核心思路是通过精度自适应优化,在不显著降低模型性能的前提下,大幅降低VBGS算法的内存占用和计算复杂度。具体来说,通过分析算法的内存和延迟热点,融合内存密集型内核,并采用混合精度量化,以更低的精度执行部分计算,从而减少内存需求和计算时间。这种方法旨在保持VBGS的变分公式不变,从而保留其持续学习的优势。
技术框架:该优化框架主要包含三个阶段:(1) 性能剖析:使用性能分析工具识别VBGS算法中的内存和延迟瓶颈。(2) 内核融合:将内存密集型的计算内核进行融合,减少中间张量的物化,从而降低内存占用。(3) 混合精度搜索:自动搜索每个操作的最佳精度,通过混合精度量化,在保证重建质量的前提下,降低计算复杂度和内存需求。整个流程旨在最小化对VBGS算法本身的修改,从而保持其原有的优点。
关键创新:论文的关键创新在于提出了一种精度自适应的优化框架,该框架能够自动地为VBGS算法中的不同操作选择合适的精度,从而在资源受限的边缘设备上实现高效的训练和推理。与传统的固定精度量化方法相比,该方法能够更精细地控制精度损失,从而在保证模型性能的同时,最大限度地降低资源消耗。此外,内核融合也是一个重要的创新点,它能够有效地减少中间张量的物化,从而降低内存占用。
关键设计:在混合精度搜索中,论文采用了有界相对误差作为约束条件,以保证量化后的模型性能不会显著下降。具体的搜索算法未知,但可以推测使用了某种形式的自动搜索算法(例如,基于强化学习或进化算法)。此外,内核融合的具体实现方式也未知,但可以推测使用了某种形式的编译器优化技术,将多个计算内核合并成一个,从而减少中间数据的传输和存储。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该优化框架在A5000 GPU上将峰值内存占用从9.44 GB降低到1.11 GB,训练时间从约234分钟降低到约61分钟,同时保持甚至提高了重建质量。更重要的是,该方法首次在商用嵌入式平台Jetson Orin Nano上实现了NVS训练,与3DGS相比,每帧延迟降低了19倍,证明了该方法在边缘设备上的有效性。
🎯 应用场景
该研究成果可广泛应用于边缘机器人、增强现实(AR)、虚拟现实(VR)等领域。例如,在机器人导航中,可以利用该方法构建紧凑且可实时更新的3D场景模型,从而提高机器人的环境感知能力和导航效率。在AR/VR应用中,可以利用该方法实现更逼真、更流畅的虚拟场景渲染,提升用户体验。此外,该方法还可以应用于智能监控、自动驾驶等领域,具有广阔的应用前景。
📄 摘要(原文)
Novel view synthesis (NVS) is increasingly relevant for edge robotics, where compact and incrementally updatable 3D scene models are needed for SLAM, navigation, and inspection under tight memory and latency budgets. Variational Bayesian Gaussian Splatting (VBGS) enables replay-free continual updates for the 3DGS algorithm by maintaining a probabilistic scene model, but its high-precision computations and large intermediate tensors make on-device training impractical. We present a precision-adaptive optimization framework that enables VBGS training on resource-constrained hardware without altering its variational formulation. We (i) profile VBGS to identify memory/latency hotspots, (ii) fuse memory-dominant kernels to reduce materialized intermediate tensors, and (iii) automatically assign operation-level precisions via a mixed-precision search with bounded relative error. Across the Blender, Habitat, and Replica datasets, our optimised pipeline reduces peak memory from 9.44 GB to 1.11 GB and training time from ~234 min to ~61 min on an A5000 GPU, while preserving (and in some cases improving) reconstruction quality of the state-of-the-art VBGS baseline. We also enable for the first time NVS training on a commercial embedded platform, the Jetson Orin Nano, reducing per-frame latency by 19x compared to 3DGS.