Gradient-Driven 3D Segmentation and Affordance Transfer in Gaussian Splatting Using 2D Masks
作者: Joji Joseph, Bharadwaj Amrutur, Shalabh Bhatnagar
分类: cs.CV, cs.RO
发布日期: 2024-09-18
备注: Preprint, Under review for ICRA 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于梯度驱动的3D高斯分割与可供性迁移方法,提升3D场景理解能力。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯Splatting 语义分割 可供性分析 梯度驱动 2D-3D迁移
📋 核心要点
- 现有3D场景表示方法在精细细节捕捉和效率方面存在挑战,限制了下游应用。
- 利用2D分割模型的梯度信息,通过投票机制实现3D高斯splatting的精确分割与可供性迁移。
- 实验表明,该方法不仅能有效分割3D高斯splatting,还能通过梯度剪枝实现显著的压缩。
📝 摘要(中文)
本文提出了一种新颖的基于投票的方法,将2D分割模型扩展到3D高斯splatting。该方法利用掩码梯度,即通过输入2D掩码过滤梯度,并将这些梯度用作投票,以实现精确的分割。此外,我们发现推理时的梯度也可用于剪枝高斯分布,从而实现高达21%的压缩。我们还探索了少样本可供性迁移,允许将2D图像的注释有效地转移到3D高斯splatting上。该方法具有鲁棒且直接的数学公式,使其成为增强现实(AR)、对象编辑和机器人等众多下游应用的高效工具。项目代码和更多资源可在https://jojijoseph.github.io/3dgs-segmentation上找到。
🔬 方法详解
问题定义:现有方法难以直接对3D高斯splatting进行分割和可供性分析,需要人工标注或复杂的3D模型。痛点在于如何利用已有的2D分割模型知识,高效地迁移到3D高斯splatting表示上,并实现自动化的标注和分析。
核心思路:核心思想是利用2D分割模型的梯度信息作为“投票”,指导3D高斯splatting的分割。具体来说,将2D图像分割的梯度反向传播到对应的3D高斯splatting上,根据梯度方向和大小,对每个高斯分布进行投票,从而确定其所属的类别。这样可以将2D的语义信息有效地传递到3D空间。
技术框架:整体流程包括:1) 使用2D分割模型对图像进行分割,得到分割掩码;2) 计算分割掩码对应的梯度;3) 将梯度反向投影到3D高斯splatting上,作为每个高斯分布的投票;4) 根据投票结果,对3D高斯splatting进行分割或可供性标注。此外,还利用推理时的梯度进行高斯分布的剪枝,以实现压缩。
关键创新:最重要的创新点在于利用2D分割模型的梯度信息,通过投票机制实现3D高斯splatting的分割和可供性迁移。与传统方法相比,无需复杂的3D模型或人工标注,可以直接利用已有的2D分割模型知识,实现自动化的3D场景理解。此外,利用推理时的梯度进行高斯分布剪枝也是一个创新点。
关键设计:关键设计包括:1) 如何将2D梯度有效地反向投影到3D高斯splatting上;2) 如何设计投票机制,使得投票结果能够准确反映高斯分布的类别;3) 如何利用推理时的梯度进行高斯分布的剪枝,以实现压缩。具体细节未知,需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地将2D分割模型的知识迁移到3D高斯splatting上,实现精确的分割和可供性标注。此外,利用推理时的梯度进行高斯分布剪枝,可以实现高达21%的压缩,而分割精度基本不受影响。具体的性能数据和对比基线未知,需要参考论文原文。
🎯 应用场景
该研究成果可广泛应用于增强现实(AR)、对象编辑和机器人等领域。例如,在AR中,可以利用该方法对3D场景进行自动分割和标注,从而实现更智能的AR体验。在对象编辑中,可以利用该方法对3D对象进行精确的选择和编辑。在机器人领域,可以利用该方法对3D场景进行理解和分析,从而实现更智能的机器人导航和操作。
📄 摘要(原文)
3D Gaussian Splatting has emerged as a powerful 3D scene representation technique, capturing fine details with high efficiency. In this paper, we introduce a novel voting-based method that extends 2D segmentation models to 3D Gaussian splats. Our approach leverages masked gradients, where gradients are filtered by input 2D masks, and these gradients are used as votes to achieve accurate segmentation. As a byproduct, we discovered that inference-time gradients can also be used to prune Gaussians, resulting in up to 21% compression. Additionally, we explore few-shot affordance transfer, allowing annotations from 2D images to be effectively transferred onto 3D Gaussian splats. The robust yet straightforward mathematical formulation underlying this approach makes it a highly effective tool for numerous downstream applications, such as augmented reality (AR), object editing, and robotics. The project code and additional resources are available at https://jojijoseph.github.io/3dgs-segmentation.