VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding
作者: Minchao Jiang, Shunyu Jia, Jiaming Gu, Xiaoyuan Lu, Guangming Zhu, Anqi Dong, Liang Zhang
分类: cs.GR, cs.CV, cs.LG
发布日期: 2025-06-28
备注: Accepted to ICCV 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
VoteSplat:融合Hough投票的3D高斯溅射,用于三维场景理解
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 场景理解 Hough投票 实例分割 开放词汇对象定位
📋 核心要点
- 现有3D高斯溅射方法侧重于几何和外观建模,缺乏对场景的深层理解,且训练成本高昂。
- VoteSplat通过将Hough投票与3DGS结合,利用SAM进行实例分割和生成投票图,实现3D场景理解。
- 实验表明VoteSplat在开放词汇3D实例定位、3D点云理解等方面表现出色,并降低了训练成本。
📝 摘要(中文)
3D高斯溅射(3DGS)已成为高质量、实时渲染三维场景新视角合成的强大工具。然而,现有方法主要关注几何和外观建模,缺乏更深层次的场景理解,同时也带来了高昂的训练成本,使原本简化的可微渲染流程变得复杂。为此,我们提出了VoteSplat,一种新颖的3D场景理解框架,它将Hough投票与3DGS集成。具体来说,我们利用Segment Anything Model (SAM)进行实例分割,提取对象并生成2D投票图。然后,我们将空间偏移向量嵌入到高斯基元中。这些偏移通过将它们与2D图像投票相关联来构建3D空间投票,而深度失真约束则细化了沿深度轴的定位。对于开放词汇对象定位,VoteSplat通过投票点将2D图像语义映射到3D点云,从而降低了与高维CLIP特征相关的训练成本,同时保持了语义的明确性。大量的实验证明了VoteSplat在开放词汇3D实例定位、3D点云理解、基于点击的3D对象定位、分层分割和消融研究中的有效性。我们的代码可在https://sy-ja.github.io/votesplat/上找到。
🔬 方法详解
问题定义:现有基于3D高斯溅射的三维场景重建方法主要关注几何和外观的建模,缺乏对场景中物体的语义理解能力,例如无法进行开放词汇的目标定位和分割。此外,直接将高维CLIP特征融入3DGS会显著增加训练成本。
核心思路:VoteSplat的核心思路是将2D图像上的语义信息(通过SAM分割和Hough投票获得)投影到3D高斯基元上,从而赋予3D场景理解能力。通过空间偏移向量和深度失真约束,实现更精确的3D定位。利用投票点将2D图像语义映射到3D点云,避免了直接使用高维CLIP特征,降低了训练成本。
技术框架:VoteSplat的整体框架包括以下几个主要阶段:1) 使用Segment Anything Model (SAM)对2D图像进行实例分割,提取对象并生成2D投票图。2) 将空间偏移向量嵌入到3D高斯基元中,这些偏移向量与2D图像投票相关联,构建3D空间投票。3) 利用深度失真约束细化沿深度轴的定位。4) 通过投票点将2D图像语义映射到3D点云,实现开放词汇对象定位。
关键创新:VoteSplat的关键创新在于将Hough投票机制与3D高斯溅射相结合,实现了一种高效且具有语义理解能力的三维场景重建方法。与直接使用高维CLIP特征的方法相比,VoteSplat通过投票点进行语义映射,显著降低了训练成本,同时保持了语义的明确性。
关键设计:VoteSplat的关键设计包括:1) 使用SAM进行实例分割,提供高质量的2D分割结果。2) 设计空间偏移向量,用于将2D投票信息投影到3D空间。3) 引入深度失真约束,提高深度方向的定位精度。4) 使用投票点进行语义映射,避免直接使用高维CLIP特征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VoteSplat在开放词汇3D实例定位、3D点云理解、基于点击的3D对象定位和分层分割等任务上均取得了显著的性能提升。消融实验验证了各个模块的有效性。该方法在降低训练成本的同时,保持了较高的语义理解能力。
🎯 应用场景
VoteSplat在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,实现更智能的导航和交互。在自动驾驶领域,VoteSplat可以用于识别和定位道路上的各种物体,提高驾驶安全性。在增强现实领域,VoteSplat可以用于将虚拟物体与真实场景进行更自然的融合。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has become horsepower in high-quality, real-time rendering for novel view synthesis of 3D scenes. However, existing methods focus primarily on geometric and appearance modeling, lacking deeper scene understanding while also incurring high training costs that complicate the originally streamlined differentiable rendering pipeline. To this end, we propose VoteSplat, a novel 3D scene understanding framework that integrates Hough voting with 3DGS. Specifically, Segment Anything Model (SAM) is utilized for instance segmentation, extracting objects, and generating 2D vote maps. We then embed spatial offset vectors into Gaussian primitives. These offsets construct 3D spatial votes by associating them with 2D image votes, while depth distortion constraints refine localization along the depth axis. For open-vocabulary object localization, VoteSplat maps 2D image semantics to 3D point clouds via voting points, reducing training costs associated with high-dimensional CLIP features while preserving semantic unambiguity. Extensive experiments demonstrate effectiveness of VoteSplat in open-vocabulary 3D instance localization, 3D point cloud understanding, click-based 3D object localization, hierarchical segmentation, and ablation studies. Our code is available at https://sy-ja.github.io/votesplat/