LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
作者: Jaehun Bang, Jinhyeok Kim, Minji Kim, Seungheon Jeong, Kyungdon Joo
分类: cs.CV
发布日期: 2026-03-25
备注: Accepted to CVPR 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
LightSplat:快速且内存高效的开放词汇三维场景理解框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维场景理解 开放词汇分割 高斯溅射 语义索引 单步聚类
📋 核心要点
- 现有开放词汇三维场景理解方法速度慢、内存占用高,且由于迭代优化和密集的单高斯特征分配而过于复杂。
- LightSplat通过注入紧凑的语义索引到三维表示中,并采用轻量级索引-特征映射,避免了昂贵的特征优化和存储开销。
- 实验结果表明,LightSplat在速度和内存效率方面显著优于现有方法,并在多个数据集上实现了最先进的性能。
📝 摘要(中文)
本文提出LightSplat,一个快速且内存高效的训练自由框架,用于开放词汇三维场景理解。该方法通过将紧凑的2字节语义索引注入多视图图像的三维表示中来实现。LightSplat仅将语义索引分配给显著区域,并通过轻量级的索引-特征映射进行管理,从而消除了昂贵的特征优化和存储开销。此外,通过单步聚类连接几何和语义相关的三维掩码,确保了语义一致性和高效推理。在LERF-OVS、ScanNet和DL3DV-OVS等复杂室内外场景上的评估表明,LightSplat实现了最先进的性能,速度提升高达50-400倍,内存占用降低64倍,从而实现了可扩展的语言驱动三维理解。
🔬 方法详解
问题定义:现有开放词汇三维场景理解方法面临速度慢、内存占用高的问题。这些方法通常依赖于迭代优化和密集的单高斯特征分配,导致计算成本高昂,难以应用于大规模场景。此外,存储每个高斯分布的特征也带来了巨大的内存开销。
核心思路:LightSplat的核心思路是通过将紧凑的语义索引注入到三维表示中,并采用轻量级的索引-特征映射来解决上述问题。这种方法避免了昂贵的特征优化和存储开销,同时实现了高效的语义分割。通过单步聚类连接几何和语义相关的三维掩码,确保了语义一致性。
技术框架:LightSplat的整体框架包括以下几个主要阶段:1) 从多视图图像中提取三维表示(例如,使用高斯溅射);2) 将语义索引分配给三维表示的显著区域;3) 使用轻量级的索引-特征映射管理语义索引;4) 通过单步聚类连接几何和语义相关的三维掩码,实现语义分割。
关键创新:LightSplat最重要的技术创新点在于其轻量级的语义索引注入和管理机制。与现有方法相比,LightSplat避免了昂贵的特征优化和存储开销,从而实现了显著的速度提升和内存占用降低。此外,单步聚类方法也提高了语义分割的效率和准确性。
关键设计:LightSplat的关键设计包括:1) 使用2字节的紧凑语义索引;2) 仅将语义索引分配给显著区域;3) 采用轻量级的索引-特征映射;4) 使用单步聚类算法连接几何和语义相关的三维掩码。具体的参数设置和损失函数等技术细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
LightSplat在LERF-OVS、ScanNet和DL3DV-OVS等数据集上取得了显著的性能提升。与现有方法相比,LightSplat的速度提升高达50-400倍,内存占用降低64倍。例如,在LERF-OVS数据集上,LightSplat实现了最先进的性能,同时保持了极高的效率。
🎯 应用场景
LightSplat具有广泛的应用前景,包括机器人导航、自动驾驶、虚拟现实、增强现实、三维场景重建等领域。该方法可以帮助机器人理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,LightSplat可以用于识别和分割道路上的各种物体,提高驾驶安全性。在虚拟现实和增强现实领域,LightSplat可以用于创建更逼真的三维场景,提高用户体验。
📄 摘要(原文)
Open-vocabulary 3D scene understanding enables users to segment novel objects in complex 3D environments through natural language. However, existing approaches remain slow, memory-intensive, and overly complex due to iterative optimization and dense per-Gaussian feature assignments. To address this, we propose LightSplat, a fast and memory-efficient training-free framework that injects compact 2-byte semantic indices into 3D representations from multi-view images. By assigning semantic indices only to salient regions and managing them with a lightweight index-feature mapping, LightSplat eliminates costly feature optimization and storage overhead. We further ensure semantic consistency and efficient inference via single-step clustering that links geometrically and semantically related masks in 3D. We evaluate our method on LERF-OVS, ScanNet, and DL3DV-OVS across complex indoor-outdoor scenes. As a result, LightSplat achieves state-of-the-art performance with up to 50-400x speedup and 64x lower memory, enabling scalable language-driven 3D understanding. For more details, visit our project page https://vision3d-lab.github.io/lightsplat/.